1. 전통적인 통계 분석 (Statistical Analysis)
데이터란?
여러 정보가 쌓인 것이며, 의미 있는 분석을 위해 사용된다.
통계의 기본 개념
모집단(Population): 우리가 알고자 하는 전체 집단
표본(Sample): 모집단에서 일부를 뽑은 것으로 전부 조사하면 좋지만, 비용과 시간의 한계 때문에 일부만 뽑아 분석한다.
이 표본을 가지고 통계량(평균, 표준편차 등)을 계산해서 모집단의 특성을 추정한다.
표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 좌우한다.
2. 데이터 마이닝 (Data Mining)
전통 통계는 표본만 쓰지만, 데이터 마이닝은 전체 데이터를 다 사용한다.
로 정형 데이터 (엑셀처럼 열과 행으로 정리된 데이터)를 사용하는데, 컴퓨터가 스스로 학습해서 데이터 안에 숨겨진 패턴이나 규칙을 발견하여 이렇게 찾은 규칙을 통해 미래를 예측하거나, 분류/추천 등을 할 수 있다.
예: 쇼핑몰에서 고객의 구매 이력을 기반으로 다음에 살 만한 제품을 추천.
제조업의 품질 개선 기법인 식스시그마에서 활용되던 분석기법이 점차 자동화되면서 발전한 개념입니다.
3. 빅데이터 (Big Data)
차세대 데이터 분석 방법으로, 데이터 마이닝보다 더 복잡하고 방대한 데이터를 다룬다.
Volume (양): 데이터 양이 엄청 많음. (예: SNS 전체 글, IoT 센서 데이터)
Variety (형태): 이미지, 영상, 음성 등 비정형 데이터까지 포함.
Velocity (속도): 데이터 생성 속도가 매우 빠르기 때문에 실시간 분석이 중요.
일반 컴퓨터 한 대로 처리할 수 없기 때문에 분산처리(병렬처리) 기술 사용 (예: Hadoop, Spark 등)
통계적 데이터 분석 절차 (정형 데이터 중심)
기술적 데이터 분석 (Descriptive Data Analysis, DDA)
데이터의 기본적인 성격을 파악하는 단계로 데이터를 불러오고, 변수의 자료형(숫자형, 문자형 등)과 구조(몇 행, 몇 열, 결측치 등) 확인한다.
목표변수(Target / Y): 우리가 예측하거나 설명하고 싶은 변수
설명변수(Feature / X): 목표변수를 설명해주는 입력 값들
각 변수에 대한 기술 통계량 확인 (예: 평균, 표준편차, 빈도수 등)
왜 필요한가?
본격적인 분석 전에 데이터를 정리하고 이해를 통해 프로젝트의 목적과 데이터가 맞는지 확인하는 기초 작업이다.
# 예시 코드
df.info()
df.describe()
df['target'].value_counts()
탐색적 데이터 분석 (Exploratory Data Analysis, EDA)
변수 간 관계나 패턴을 시각화하고 파악하는 단계로 목표변수(Y)와 설명변수(X) 사이의 패턴, 트렌드, 관계를 탐색한다.
이 단계에서는 주관적 해석이 개입될 수 있다.
시각화 도구 사용: 박스플롯, 산점도, 히스토그램, 상관행렬 등
왜 필요한가?
어떤 변수들이 중요할지 감을 잡을 수 있고, 데이터에 문제(이상치, 분포 불균형 등)가 있는지도 발견할 수 있다.
matplotlib, seaborn, plotly 등 사용한다.
# 예시 코드
sns.pairplot(df)
sns.boxplot(x='category', y='target', data=df)
확증적 데이터 분석 (Confirmatory Data Analysis, CDA)
객관적인 수치와 통계 검정을 통해 가설을 검증한다.
가설 수립: "이 변수는 타겟에 영향을 줄까?" → 검정
통계적 검정: t-test, ANOVA, 카이제곱 검정, 상관분석 등
결과의 유의성(p-value) 확인
왜 필요한가?
단순히 보이는 패턴이 우연인지, 의미 있는 차이인지 확인하여 분석 결과를 신뢰할 수 있는 근거 제공한다.
# 예시 코드
from scipy.stats import ttest_ind
ttest_ind(df[df['group'] == 'A']['target'], df[df['group'] == 'B']['target'])
예측적 데이터 분석 (Predictive Data Analysis, PDA)
과거 데이터로부터 미래를 예측하거나 자동화된 의사결정 수행한다.
목표변수(Y)를 예측하는 모델을 학습시킨다 (Regression, Classification 등)
머신러닝 기법: 선형 회귀, 의사결정나무, 랜덤포레스트, XGBoost, 딥러닝 등
모델 성능 평가: 정확도, RMSE, AUC 등
왜 필요한가?
데이터 기반으로 미래 상황을 예측하거나 실시간 대응이 가능하여 비즈니스 의사결정 자동화할 수 있다.
# 예시 코드
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
'컴퓨터 > 디지털 하나로' 카테고리의 다른 글
탐색적 데이터 분석(EDA) (0) | 2025.04.27 |
---|---|
기술적 데이터 분석 (1) | 2025.04.26 |