교육 정보

교육 기관 : T아카데미

교육 일자 : 2017.08.31(목)에 진행된 제10차 토크ON세미나

교육자 : 이재광

교육자 이력 : (주)엔비티 / https://www.facebook.com/openstacks

수강일자 : 2018년 5월29일 ~ 2018년 6월28일

수강자 : 이명호





  1. 데이터 파이프라인 기술의 이해
  2. 유스케이스별 데이터 파이프라인 도구
  3. 빅데이터 분석에 활용되는 클라우드 플랫폼
  4. 단계별 데이터 파이프라인 설계, 고려사항


01. 데이터파이프라인 기술의 이해


  • 빅데이터란 : 기존 데이터베이스의 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터의 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. (위키)
  • 빅데이터의 조건 : 현재상황파악과 이에대한 원인분석 미래의 예측


빅데이터 활용 분석예

  • 페이스북 : 관련된 내용
  • 링크드인 : 연관성 분석
  • 아마존 : 구매제품과 관련된 제품


02. 유스케이스별 데이터 파이프라인 도구

데이터 수집 (agent의 경량화 방향으로 진행중)

  • logstash
    • Elk stack 가장 많은 input과 output 플러그인을 제공
    • 가장 다양한 형태의 데이터를 읽을 수 있고, 다양한 타입의 Output을 제공
  • fluentd
    • 과거에 인기있었으나, 신규툴에 비해 발전속도가 느림
    • 기존 플랫폼에 대하여 완벽히 제공하고 있음
  • embulk
    • fluentd를 경량화
  • beat
    • elk 와 결합해서 제공되는 경량 agent
  • apache flume
    •  hadoop과 완벽한 궁합
    • input과 output을 직접 개발해야 하는 경우가 많이 생김
    • 최근 인기가 줄어듬
  • aws sdk
  • gcloud sdk


저장,가공,분석

  • apache kakfa, kafka-rest
  • rabbitmq, activemq
  • redis, couchbase
  • nosql database, rdbms
  • s3gcs
  • hadoop, elasticsearch
  • spark, athenabigquery
  • datalab, dataproc, dataflow
  • kinesis, emr, redshift
  • kibana, datastudio
  • zeppelin
  • No labels
Write a comment…