본문 바로가기

컴퓨터/디지털 하나로

(5)
예측적 데이터 분석 예측적 데이터 분석이란?과거 데이터에서 설명변수와 목표변수 간의 관계를 수식화하여, 미래의 관측값을 예측하거나 대응하는 것이다. 전통 통계 (통계학 중심 분석)대표적 기법: 회귀분석접근 방식: 모집단에서 추출한 표본의 성격을 검정하며 분석을 수행정규성 검정, 등분산성, 독립성 등 전제조건 확인회귀계수의 유의성, 모델의 유의성까지 검정이상치 제거, 결측치 처리와 같은 데이터 전처리가 필수이다. 데이터마이닝 (기계학습 중심 분석)대표적 기법: 의사결정나무, 랜덤포레스트, 신경망 등접근 방식: 학습 데이터를 이용해 모델을 학습하고, 검증 데이터에서 성능만으로 판단전통적 통계의 전제조건은 고려하지 않음전처리는 중요하지만 통계적 가정은 거의 사용하지 않음 전통 통계 회귀분석의 절차1. 데이터 전처리이상치, 결측값..
확증적 데이터 분석 데이터 간 연관성, 상관성, 유사성 등에 대한 가설을 수립하고 통계적 검정 기법을 이용해 객관적인 수치로 검증하는 과정이다.통계적 가설 검정은 확률 분포를 기반으로 수행된다. 확률 분포란?확률 변수가 가질 수 있는 값들과 그 값이 나타날 확률을 나타낸 것으로 데이터가 따르는 분포에 따라 적절한 가설 검정 기법이 달라지기 때문에 확률 분포를 파악해야한다. 계량형 확률 분포 -> 숫자 / 연속형 데이터에 사용 분포 종류 설명 주요 용도 정규 분포 (Normal Distribution)평균 주변에 데이터가 밀집된, 좌우 대칭의 종 모양 분포자연 데이터 근사, 모집단 추정표준 정규 분포 (Standard Normal Distribution)평균 0, 표준편차 1로 정규화를 수행한 정규 분포Z-score ..
탐색적 데이터 분석(EDA) 데이터 시각화시각화의 목적 - 설득을 위한 시각화: 누구나 쉽게 이해할 수 있도록 명확하게 표현 - 탐색을 위한 시각화: 데이터의 특성, 분포, 트렌드를 빠르게 파악하기 위함 단일 변수 시각화 - 연속형Histogram: 연속형 데이터의 빈도수를 막대그래프로 표현 (X축: 연속형 데이터 / Y축: 빈도수)KDE(커널 밀도 추정): 연속형 데이터의 확률 밀도 함수를 추정해 부드러운 분포 곡선으로 표현 (X축: 연속형 데이터 / Y축: 확률 밀도)Box Plot: 데이터를 사분위수를 기준으로 구분하여 분포를 요약 이상치를 함께 시각화 가능 이상치 판별이상치: 데이터의 일반적인 패턴이나 특성에서 크게 벗어난 값으로 분석 결과를 왜곡할 수 있기 때문에 탐지 및 처리 과정이 중요 1. 사분위수(IQR, Inter..
기술적 데이터 분석 데이터 분석을 위한 라이브러리 종류 - numpy (numeric python) : 연속형 자료에 대한 과학, 통계, 수학 연산 관련 함수들의 집합 - pandas (panel dataset) : 정형데이터(execl, csv, sql, ...)를 처리, 분석, 통계 연산 함수들의 집합 - matplotlib (matlab plot library) : 연속형 자료들의 그래프를 시각화 하는 함수들의 집합 - seaborn : 정형데이터의 통계적 연산 및 시각화 - plotly : 정형데이터의 시각화 (동적 시각화) - scipy (science python) : 응용통계(가설 검정, 회귀 분석, 시계열 분석) 함수들의 집합 - scikit-learn (science python learning toolk..
데이터 분석 기초 통계 1. 전통적인 통계 분석 (Statistical Analysis)데이터란?여러 정보가 쌓인 것이며, 의미 있는 분석을 위해 사용된다. 통계의 기본 개념모집단(Population): 우리가 알고자 하는 전체 집단표본(Sample): 모집단에서 일부를 뽑은 것으로 전부 조사하면 좋지만, 비용과 시간의 한계 때문에 일부만 뽑아 분석한다.이 표본을 가지고 통계량(평균, 표준편차 등)을 계산해서 모집단의 특성을 추정한다. 표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 좌우한다. 2. 데이터 마이닝 (Data Mining)전통 통계는 표본만 쓰지만, 데이터 마이닝은 전체 데이터를 다 사용한다. 로 정형 데이터 (엑셀처럼 열과 행으로 정리된 데이터)를 사용하는데, 컴퓨터가 스스로 학습해서 데이터 안에 숨겨진..