본문 바로가기

전체 글

(121)
Airflow https://developers.hyundaimotorgroup.com/blog/570 (Airflow #1) 데이터 엔지니어들이 선택하는 Apache Airflow 소개Airflow 를 사용하는 이유, 아키텍처, 내부 DB 모델링 소개를 드립니다.developers.hyundaimotorgroup.com위 블로그를 참고해서 작성하였다. Apache Airflow 는 Airbnb 에서 workflow 들을 관리하고 스케줄링 하기 위해 만든 파이썬 기반의 오픈 소스로Workflow 를 Python code 로 작성할 수 있으며, DAG(Directed Acyclic Graph) 라는 대분류 안에 workflow 들이 속하여 스케줄링하고, DAG를 시각화해서 보여준다 왜 Airflow 를 사용하는지?오픈소..
예측적 데이터 분석 예측적 데이터 분석이란?과거 데이터에서 설명변수와 목표변수 간의 관계를 수식화하여, 미래의 관측값을 예측하거나 대응하는 것이다. 전통 통계 (통계학 중심 분석)대표적 기법: 회귀분석접근 방식: 모집단에서 추출한 표본의 성격을 검정하며 분석을 수행정규성 검정, 등분산성, 독립성 등 전제조건 확인회귀계수의 유의성, 모델의 유의성까지 검정이상치 제거, 결측치 처리와 같은 데이터 전처리가 필수이다. 데이터마이닝 (기계학습 중심 분석)대표적 기법: 의사결정나무, 랜덤포레스트, 신경망 등접근 방식: 학습 데이터를 이용해 모델을 학습하고, 검증 데이터에서 성능만으로 판단전통적 통계의 전제조건은 고려하지 않음전처리는 중요하지만 통계적 가정은 거의 사용하지 않음 전통 통계 회귀분석의 절차1. 데이터 전처리이상치, 결측값..
확증적 데이터 분석 데이터 간 연관성, 상관성, 유사성 등에 대한 가설을 수립하고 통계적 검정 기법을 이용해 객관적인 수치로 검증하는 과정이다.통계적 가설 검정은 확률 분포를 기반으로 수행된다. 확률 분포란?확률 변수가 가질 수 있는 값들과 그 값이 나타날 확률을 나타낸 것으로 데이터가 따르는 분포에 따라 적절한 가설 검정 기법이 달라지기 때문에 확률 분포를 파악해야한다. 계량형 확률 분포 -> 숫자 / 연속형 데이터에 사용 분포 종류 설명 주요 용도 정규 분포 (Normal Distribution)평균 주변에 데이터가 밀집된, 좌우 대칭의 종 모양 분포자연 데이터 근사, 모집단 추정표준 정규 분포 (Standard Normal Distribution)평균 0, 표준편차 1로 정규화를 수행한 정규 분포Z-score ..
탐색적 데이터 분석(EDA) 데이터 시각화시각화의 목적 - 설득을 위한 시각화: 누구나 쉽게 이해할 수 있도록 명확하게 표현 - 탐색을 위한 시각화: 데이터의 특성, 분포, 트렌드를 빠르게 파악하기 위함 단일 변수 시각화 - 연속형Histogram: 연속형 데이터의 빈도수를 막대그래프로 표현 (X축: 연속형 데이터 / Y축: 빈도수)KDE(커널 밀도 추정): 연속형 데이터의 확률 밀도 함수를 추정해 부드러운 분포 곡선으로 표현 (X축: 연속형 데이터 / Y축: 확률 밀도)Box Plot: 데이터를 사분위수를 기준으로 구분하여 분포를 요약 이상치를 함께 시각화 가능 이상치 판별이상치: 데이터의 일반적인 패턴이나 특성에서 크게 벗어난 값으로 분석 결과를 왜곡할 수 있기 때문에 탐지 및 처리 과정이 중요 1. 사분위수(IQR, Inter..
기술적 데이터 분석 데이터 분석을 위한 라이브러리 종류 - numpy (numeric python) : 연속형 자료에 대한 과학, 통계, 수학 연산 관련 함수들의 집합 - pandas (panel dataset) : 정형데이터(execl, csv, sql, ...)를 처리, 분석, 통계 연산 함수들의 집합 - matplotlib (matlab plot library) : 연속형 자료들의 그래프를 시각화 하는 함수들의 집합 - seaborn : 정형데이터의 통계적 연산 및 시각화 - plotly : 정형데이터의 시각화 (동적 시각화) - scipy (science python) : 응용통계(가설 검정, 회귀 분석, 시계열 분석) 함수들의 집합 - scikit-learn (science python learning toolk..
데이터 분석 기초 통계 1. 전통적인 통계 분석 (Statistical Analysis)데이터란?여러 정보가 쌓인 것이며, 의미 있는 분석을 위해 사용된다. 통계의 기본 개념모집단(Population): 우리가 알고자 하는 전체 집단표본(Sample): 모집단에서 일부를 뽑은 것으로 전부 조사하면 좋지만, 비용과 시간의 한계 때문에 일부만 뽑아 분석한다.이 표본을 가지고 통계량(평균, 표준편차 등)을 계산해서 모집단의 특성을 추정한다. 표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 좌우한다. 2. 데이터 마이닝 (Data Mining)전통 통계는 표본만 쓰지만, 데이터 마이닝은 전체 데이터를 다 사용한다. 로 정형 데이터 (엑셀처럼 열과 행으로 정리된 데이터)를 사용하는데, 컴퓨터가 스스로 학습해서 데이터 안에 숨겨진..
[GCP Associate Cloud Engineer] 취득 후기 시험을 보기전에 덤프문제와 예시 문제들을 풀어봤을 때 정답률이 70%정도 되서 걱정이 되었다.그래도 문제를 풀다 보면 특정 주제에따라 어떤걸 주로 물어보는지 패턴이 대충 보여서 해당 부분을 암기해서 시험에 임하였다. 일단 시험을 보기 전에 시험 감독을 매우 철저히하는데 진짜 책상위, 아래, 옆 모든곳에 노트북을 제외한 어떤것도 있으면 안되서 시험 준비하는데만 10분 넘게 걸렸었다.또한 이 모든것을 번역기 사용없이 담당자와 영어로 대화를 해야해서 너무 힘들었다. 시험을 보면서 느낀점은 덤프 문제가 도움이 많이 되었다는 것이다.물론 덤프 문제만 풀어서 시험을 보면 해당 문제들이 다루지 않은 개념들을 물어볼 때도 있기 때문에 전반적인 공부를 해야겠지만 내가 공부한 자료들 중에서는 덤프문제가 가장 도움이 많이 ..
[GCP Associate Cloud Engineer] Associate Cloud Engineer 샘플 문제 Question 1Your organization plans to migrate its financial transaction monitoring application to Google Cloud. Auditors need to view the data and run reports in BigQuery, but they are not allowed to perform transactions in the application. You are leading the migration and want the simplest solution that will require the least amount of maintenance. What should you do? A. Assign roles/bigquery.d..