본문 바로가기

컴퓨터/디지털 하나로

(3)
탐색적 데이터 분석(EDA) 데이터 시각화시각화의 목적 - 설득을 위한 시각화: 누구나 쉽게 이해할 수 있도록 명확하게 표현 - 탐색을 위한 시각화: 데이터의 특성, 분포, 트렌드를 빠르게 파악하기 위함 단일 변수 시각화 - 연속형Histogram: 연속형 데이터의 빈도수를 막대그래프로 표현 (X축: 연속형 데이터 / Y축: 빈도수)KDE(커널 밀도 추정): 연속형 데이터의 확률 밀도 함수를 추정해 부드러운 분포 곡선으로 표현 (X축: 연속형 데이터 / Y축: 확률 밀도)Box Plot: 데이터를 사분위수를 기준으로 구분하여 분포를 요약 이상치를 함께 시각화 가능 이상치 판별이상치: 데이터의 일반적인 패턴이나 특성에서 크게 벗어난 값으로 분석 결과를 왜곡할 수 있기 때문에 탐지 및 처리 과정이 중요 1. 사분위수(IQR, Inter..
기술적 데이터 분석 데이터 분석을 위한 라이브러리 종류 - numpy (numeric python) : 연속형 자료에 대한 과학, 통계, 수학 연산 관련 함수들의 집합 - pandas (panel dataset) : 정형데이터(execl, csv, sql, ...)를 처리, 분석, 통계 연산 함수들의 집합 - matplotlib (matlab plot library) : 연속형 자료들의 그래프를 시각화 하는 함수들의 집합 - seaborn : 정형데이터의 통계적 연산 및 시각화 - plotly : 정형데이터의 시각화 (동적 시각화) - scipy (science python) : 응용통계(가설 검정, 회귀 분석, 시계열 분석) 함수들의 집합 - scikit-learn (science python learning toolk..
데이터 분석 기초 통계 1. 전통적인 통계 분석 (Statistical Analysis)데이터란?여러 정보가 쌓인 것이며, 의미 있는 분석을 위해 사용된다. 통계의 기본 개념모집단(Population): 우리가 알고자 하는 전체 집단표본(Sample): 모집단에서 일부를 뽑은 것으로 전부 조사하면 좋지만, 비용과 시간의 한계 때문에 일부만 뽑아 분석한다.이 표본을 가지고 통계량(평균, 표준편차 등)을 계산해서 모집단의 특성을 추정한다. 표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 좌우한다. 2. 데이터 마이닝 (Data Mining)전통 통계는 표본만 쓰지만, 데이터 마이닝은 전체 데이터를 다 사용한다. 로 정형 데이터 (엑셀처럼 열과 행으로 정리된 데이터)를 사용하는데, 컴퓨터가 스스로 학습해서 데이터 안에 숨겨진..