본문 바로가기

컴퓨터/빅데이터

(2)
Airflow https://developers.hyundaimotorgroup.com/blog/570 (Airflow #1) 데이터 엔지니어들이 선택하는 Apache Airflow 소개Airflow 를 사용하는 이유, 아키텍처, 내부 DB 모델링 소개를 드립니다.developers.hyundaimotorgroup.com위 블로그를 참고해서 작성하였다. Apache Airflow 는 Airbnb 에서 workflow 들을 관리하고 스케줄링 하기 위해 만든 파이썬 기반의 오픈 소스로Workflow 를 Python code 로 작성할 수 있으며, DAG(Directed Acyclic Graph) 라는 대분류 안에 workflow 들이 속하여 스케줄링하고, DAG를 시각화해서 보여준다 왜 Airflow 를 사용하는지?오픈소..
1. 크롤링 데이터 수집은 데이터를 데이터 웨어하우스 또는 기타 저장 솔루션에 넣기 전에 데이터를 수집하고, 필터링하고, 정리하는 과정으로되어 있다.빅데이터의 수집은 일반적으로 네 가지 V로 설명된다. - Volume(규모): 데이터의 양 - Velocity(속도): 데이터가 생성되고 처리되는 속도 - Variety(다양성): 데이터의 형식과 종류 - Value(가치): 데이터의 유용성과 중요성 데이터 수집은 데이터를 아래의 방법 중 하나로 얻을 수 있다.1. 무료로 찾거나 데이터를 구매하는 방법2. 전문 웹 스크래핑 기술을 사용하거나 간단히 복사 붙여넣기 하는 방법3. 판매 보고서와 같은 내부 소스 또는 외부 저널이나 웹사이트에서 데이터를 얻는 방법이 과정을 통해 수집된 데이터는 분석을 위해 데이터 웨어하우스 또는..