본문 바로가기

컴퓨터/디지털 하나로

탐색적 데이터 분석(EDA)

데이터 시각화

시각화의 목적

 - 설득을 위한 시각화: 누구나 쉽게 이해할 수 있도록 명확하게 표현

 - 탐색을 위한 시각화: 데이터의 특성, 분포, 트렌드를 빠르게 파악하기 위함

 

단일 변수 시각화

 - 연속형

Histogram: 연속형 데이터의 빈도수를 막대그래프로 표현 (X축: 연속형 데이터 / Y축: 빈도수)

KDE(커널 밀도 추정): 연속형 데이터의 확률 밀도 함수를 추정해 부드러운 분포 곡선으로 표현 (X축: 연속형 데이터 / Y축: 확률 밀도)

Box Plot: 데이터를 사분위수를 기준으로 구분하여 분포를 요약 이상치를 함께 시각화 가능

 

이상치 판별

이상치: 데이터의 일반적인 패턴이나 특성에서 크게 벗어난 값으로 분석 결과를 왜곡할 수 있기 때문에 탐지 및 처리 과정이 중요

 

1. 사분위수(IQR, Interquartile Range) 기반 판별

데이터의 3사분위수(75%)와 1사분위수(25%)의 차이로 

Q1 - 1.5 × IQR 보다 작거나, Q3 + 1.5 × IQR 보다 큰 값을 이상치로 판별한다. 

주로 연속형 자료가 정규분포를 가정할 때 많이 사용한다. 

 

2. 평균과 표준편차(Mean-Std) 기반 판별

평균을 기준으로 표준편차의 특정 배수 이상 떨어진 값을 이상치로 판별한다.

일반적으로 ±2σ 또는 ±3σ 이상 떨어진 경우 이상치로 판단한다.

제조공정이나 식스시그마 관리와 같이 주로 정규분포를 따르는 연속형 데이터에서 사용한다.

 

 

ESD(Extreme Studentized Deviate)기법

평균과 표준편차를 기반으로, 이상치 후보를 하나씩 제거해가며 반복적으로 재계산하여 여러 개의 이상치가 존재할 때 효과적으로 탐색하는 방법

 

3. 데이터 마이닝 기반 이상치 탐지 (비정형/비모수 데이터)

머신러닝 기반으로 데이터의 거리, 밀도, 분리 가능성 등을 활용해 이상치를 판별한다.

DBSCAN(Density-Based Spatial Clustering of Applications with Noise), LOF(Local Outlier Factor), Isolation Forest, One-Class SVM등의 알고리즘을 사용해서 정규분포를 따르지 않는 데이터나 복잡한 고차원 데이터에 적용한다.

 

 - 범주형

Bar Chart: 각 범주의 빈도수 또는 비율을 막대로 표현

Pie Chart: 각 범주의 비율을 원형으로 표현

 

다변수 시각화

Bar Chart: 집단 간 평균, 중앙값 등을 비교할 때 사용(X: 범주형 / Y: 연속형)

Scatter Chart (산점도): 두 지표 간 상관관계 확인(X: 연속형 / Y: 연속형)

Line Chart (선 그래프): 시간이나 순서에 따른 변화 추이를 확인(X: 순서형 / Y: 연속형)

'컴퓨터 > 디지털 하나로' 카테고리의 다른 글

기술적 데이터 분석  (1) 2025.04.26
데이터 분석 기초 통계  (0) 2025.03.25