데이터 분석 기초 통계

1. 전통적인 통계 분석 (Statistical Analysis)

데이터란?
여러 정보가 쌓인 것이며, 의미 있는 분석을 위해 사용된다.

통계의 기본 개념

모집단(Population): 우리가 알고자 하는 전체 집단

표본(Sample): 모집단에서 일부를 뽑은 것으로 전부 조사하면 좋지만, 비용과 시간의 한계 때문에 일부만 뽑아 분석한다.

이 표본을 가지고 통계량(평균, 표준편차 등)을 계산해서 모집단의 특성을 추정한다.

표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 좌우한다.

2. 데이터 마이닝 (Data Mining)

전통 통계는 표본만 쓰지만, 데이터 마이닝은 전체 데이터를 다 사용한다.

로 정형 데이터 (엑셀처럼 열과 행으로 정리된 데이터)를 사용하는데, 컴퓨터가 스스로 학습해서 데이터 안에 숨겨진 패턴이나 규칙을 발견하여 이렇게 찾은 규칙을 통해 미래를 예측하거나, 분류/추천 등을 할 수 있다.

예: 쇼핑몰에서 고객의 구매 이력을 기반으로 다음에 살 만한 제품을 추천.

제조업의 품질 개선 기법인 식스시그마에서 활용되던 분석기법이 점차 자동화되면서 발전한 개념입니다.

3. 빅데이터 (Big Data)

차세대 데이터 분석 방법으로, 데이터 마이닝보다 더 복잡하고 방대한 데이터를 다룬다.

Volume (양): 데이터 양이 엄청 많음. (예: SNS 전체 글, IoT 센서 데이터)

Variety (형태): 이미지, 영상, 음성 등 비정형 데이터까지 포함.

Velocity (속도): 데이터 생성 속도가 매우 빠르기 때문에 실시간 분석이 중요.

일반 컴퓨터 한 대로 처리할 수 없기 때문에 분산처리(병렬처리) 기술 사용 (예: Hadoop, Spark 등)

통계적 데이터 분석 절차 (정형 데이터 중심)

기술적 데이터 분석 (Descriptive Data Analysis, DDA)

데이터의 기본적인 성격을 파악하는 단계로 데이터를 불러오고, 변수의 자료형(숫자형, 문자형 등)과 구조(몇 행, 몇 열, 결측치 등) 확인한다.

목표변수(Target / Y): 우리가 예측하거나 설명하고 싶은 변수

설명변수(Feature / X): 목표변수를 설명해주는 입력 값들

각 변수에 대한 기술 통계량 확인 (예: 평균, 표준편차, 빈도수 등)

왜 필요한가?

본격적인 분석 전에 데이터를 정리하고 이해를 통해 프로젝트의 목적과 데이터가 맞는지 확인하는 기초 작업이다.

# 예시 코드
df.info()
df.describe()
df['target'].value_counts()

탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

변수 간 관계나 패턴을 시각화하고 파악하는 단계로 목표변수(Y)와 설명변수(X) 사이의 패턴, 트렌드, 관계를 탐색한다.

이 단계에서는 주관적 해석이 개입될 수 있다.

시각화 도구 사용: 박스플롯, 산점도, 히스토그램, 상관행렬 등

왜 필요한가?

어떤 변수들이 중요할지 감을 잡을 수 있고, 데이터에 문제(이상치, 분포 불균형 등)가 있는지도 발견할 수 있다.

matplotlib, seaborn, plotly 등 사용한다.

# 예시 코드
sns.pairplot(df)
sns.boxplot(x='category', y='target', data=df)

확증적 데이터 분석 (Confirmatory Data Analysis, CDA)

객관적인 수치와 통계 검정을 통해 가설을 검증한다.

가설 수립: "이 변수는 타겟에 영향을 줄까?" → 검정

통계적 검정: t-test, ANOVA, 카이제곱 검정, 상관분석 등

결과의 유의성(p-value) 확인

왜 필요한가?

단순히 보이는 패턴이 우연인지, 의미 있는 차이인지 확인하여 분석 결과를 신뢰할 수 있는 근거 제공한다.

# 예시 코드
from scipy.stats import ttest_ind
ttest_ind(df[df['group'] == 'A']['target'], df[df['group'] == 'B']['target'])

예측적 데이터 분석 (Predictive Data Analysis, PDA)

과거 데이터로부터 미래를 예측하거나 자동화된 의사결정 수행한다.

목표변수(Y)를 예측하는 모델을 학습시킨다 (Regression, Classification 등)

머신러닝 기법: 선형 회귀, 의사결정나무, 랜덤포레스트, XGBoost, 딥러닝 등

모델 성능 평가: 정확도, RMSE, AUC 등

왜 필요한가?

데이터 기반으로 미래 상황을 예측하거나 실시간 대응이 가능하여 비즈니스 의사결정 자동화할 수 있다.

# 예시 코드
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

'컴퓨터 > 디지털 하나로' 카테고리의 다른 글

예측적 데이터 분석 (3)	2025.05.05
확증적 데이터 분석 (0)	2025.05.05
탐색적 데이터 분석(EDA) (0)	2025.04.27
기술적 데이터 분석 (3)	2025.04.26

활동바코

데이터 분석 기초 통계

1. 전통적인 통계 분석 (Statistical Analysis)

2. 데이터 마이닝 (Data Mining)

3. 빅데이터 (Big Data)

통계적 데이터 분석 절차 (정형 데이터 중심)

'컴퓨터 > 디지털 하나로' 카테고리의 다른 글

티스토리툴바

데이터 분석 기초 통계

1. 전통적인 통계 분석 (Statistical Analysis)

2. 데이터 마이닝 (Data Mining)

3. 빅데이터 (Big Data)

통계적 데이터 분석 절차 (정형 데이터 중심)

'컴퓨터 > 디지털 하나로' 카테고리의 다른 글

'컴퓨터/디지털 하나로' Related Articles

티스토리툴바