데이터 시각화
시각화의 목적
- 설득을 위한 시각화: 누구나 쉽게 이해할 수 있도록 명확하게 표현
- 탐색을 위한 시각화: 데이터의 특성, 분포, 트렌드를 빠르게 파악하기 위함
단일 변수 시각화
- 연속형
Histogram: 연속형 데이터의 빈도수를 막대그래프로 표현 (X축: 연속형 데이터 / Y축: 빈도수)
KDE(커널 밀도 추정): 연속형 데이터의 확률 밀도 함수를 추정해 부드러운 분포 곡선으로 표현 (X축: 연속형 데이터 / Y축: 확률 밀도)
Box Plot: 데이터를 사분위수를 기준으로 구분하여 분포를 요약 이상치를 함께 시각화 가능
이상치 판별
이상치: 데이터의 일반적인 패턴이나 특성에서 크게 벗어난 값으로 분석 결과를 왜곡할 수 있기 때문에 탐지 및 처리 과정이 중요
1. 사분위수(IQR, Interquartile Range) 기반 판별
데이터의 3사분위수(75%)와 1사분위수(25%)의 차이로
Q1 - 1.5 × IQR 보다 작거나, Q3 + 1.5 × IQR 보다 큰 값을 이상치로 판별한다.
주로 연속형 자료가 정규분포를 가정할 때 많이 사용한다.
2. 평균과 표준편차(Mean-Std) 기반 판별
평균을 기준으로 표준편차의 특정 배수 이상 떨어진 값을 이상치로 판별한다.
일반적으로 ±2σ 또는 ±3σ 이상 떨어진 경우 이상치로 판단한다.
제조공정이나 식스시그마 관리와 같이 주로 정규분포를 따르는 연속형 데이터에서 사용한다.
ESD(Extreme Studentized Deviate)기법
평균과 표준편차를 기반으로, 이상치 후보를 하나씩 제거해가며 반복적으로 재계산하여 여러 개의 이상치가 존재할 때 효과적으로 탐색하는 방법
3. 데이터 마이닝 기반 이상치 탐지 (비정형/비모수 데이터)
머신러닝 기반으로 데이터의 거리, 밀도, 분리 가능성 등을 활용해 이상치를 판별한다.
DBSCAN(Density-Based Spatial Clustering of Applications with Noise), LOF(Local Outlier Factor), Isolation Forest, One-Class SVM등의 알고리즘을 사용해서 정규분포를 따르지 않는 데이터나 복잡한 고차원 데이터에 적용한다.
- 범주형
Bar Chart: 각 범주의 빈도수 또는 비율을 막대로 표현
Pie Chart: 각 범주의 비율을 원형으로 표현
다변수 시각화
Bar Chart: 집단 간 평균, 중앙값 등을 비교할 때 사용(X: 범주형 / Y: 연속형)
Scatter Chart (산점도): 두 지표 간 상관관계 확인(X: 연속형 / Y: 연속형)
Line Chart (선 그래프): 시간이나 순서에 따른 변화 추이를 확인(X: 순서형 / Y: 연속형)
'컴퓨터 > 디지털 하나로' 카테고리의 다른 글
기술적 데이터 분석 (1) | 2025.04.26 |
---|---|
데이터 분석 기초 통계 (0) | 2025.03.25 |