수강이력
강의일자 : T아카데미 2017.08.31(목)에 진행된 제10차 토크ON세미나 동영상
수강일자 : 2018년 5월29일 ~ 2018년 6월28일
수강자 : 이명호
- 데이터 파이프라인 기술의 이해
- 유스케이스별 데이터 파이프라인 도구
- 빅데이터 분석에 활용되는 클라우드 플랫폼
- 단계별 데이터 파이프라인 설계, 고려사항
01. 데이터파이프라인 기술의 이해
- 빅데이터란 : 기존 데이터베이스의 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터의 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. (위키)
- 빅데이터의 조건 : 현재상황파악과 이에대한 원인분석 미래의 예측
빅데이터 활용 분석예
- 페이스북 : 관련된 내용
- 링크드인 : 연관성 분석
- 아마존 : 구매제품과 관련된 제품
02. 유스케이스별 데이터 파이프라인 도구
데이터 수집 (agent의 경량화 방향으로 진행중)
- logstash
- Elk stack 가장 많은 input과 output 플러그인을 제공
- 가장 다양한 형태의 데이터를 읽을 수 있고, 다양한 타입의 Output을 제공
- fluentd
- 과거에 인기있었으나, 신규툴에 비해 발전속도가 느림
- 기존 플랫폼에 대하여 완벽히 제공하고 있음
- embulk
- fluentd를 경량화
- beat
- elk 와 결합해서 제공되는 경량 agent
- apache flume
- hadoop과 완벽한 궁합
- input과 output을 직접 개발해야 하는 경우가 많이 생김
- 최근 인기가 줄어듬
- aws sdk
- gcloud sdk
저장,가공,분석
- apache kakfa, kafka-rest
- rabbitmq, activemq
- redis, couchbase
- nosql database, rdbms
- s3, gcs
- hadoop, elasticsearch
- spark, athena, bigquery
- datalab, dataproc, dataflow
- kinesis, emr, redshift
- kibana, datastudio
- zeppelin