하나로 (3) 썸네일형 리스트형 확증적 데이터 분석 데이터 간 연관성, 상관성, 유사성 등에 대한 가설을 수립하고 통계적 검정 기법을 이용해 객관적인 수치로 검증하는 과정이다.통계적 가설 검정은 확률 분포를 기반으로 수행된다. 확률 분포란?확률 변수가 가질 수 있는 값들과 그 값이 나타날 확률을 나타낸 것으로 데이터가 따르는 분포에 따라 적절한 가설 검정 기법이 달라지기 때문에 확률 분포를 파악해야한다. 계량형 확률 분포 -> 숫자 / 연속형 데이터에 사용 분포 종류 설명 주요 용도 정규 분포 (Normal Distribution)평균 주변에 데이터가 밀집된, 좌우 대칭의 종 모양 분포자연 데이터 근사, 모집단 추정표준 정규 분포 (Standard Normal Distribution)평균 0, 표준편차 1로 정규화를 수행한 정규 분포Z-score .. 기술적 데이터 분석 데이터 분석을 위한 라이브러리 종류 - numpy (numeric python) : 연속형 자료에 대한 과학, 통계, 수학 연산 관련 함수들의 집합 - pandas (panel dataset) : 정형데이터(execl, csv, sql, ...)를 처리, 분석, 통계 연산 함수들의 집합 - matplotlib (matlab plot library) : 연속형 자료들의 그래프를 시각화 하는 함수들의 집합 - seaborn : 정형데이터의 통계적 연산 및 시각화 - plotly : 정형데이터의 시각화 (동적 시각화) - scipy (science python) : 응용통계(가설 검정, 회귀 분석, 시계열 분석) 함수들의 집합 - scikit-learn (science python learning toolk.. 데이터 분석 기초 통계 1. 전통적인 통계 분석 (Statistical Analysis)데이터란?여러 정보가 쌓인 것이며, 의미 있는 분석을 위해 사용된다. 통계의 기본 개념모집단(Population): 우리가 알고자 하는 전체 집단표본(Sample): 모집단에서 일부를 뽑은 것으로 전부 조사하면 좋지만, 비용과 시간의 한계 때문에 일부만 뽑아 분석한다.이 표본을 가지고 통계량(평균, 표준편차 등)을 계산해서 모집단의 특성을 추정한다. 표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 좌우한다. 2. 데이터 마이닝 (Data Mining)전통 통계는 표본만 쓰지만, 데이터 마이닝은 전체 데이터를 다 사용한다. 로 정형 데이터 (엑셀처럼 열과 행으로 정리된 데이터)를 사용하는데, 컴퓨터가 스스로 학습해서 데이터 안에 숨겨진.. 이전 1 다음