Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Children Display



  1. 데이터 파이프라인 기술의 이해
  2. 유스케이스별 데이터 파이프라인 도구
  3. 빅데이터 분석에 활용되는 클라우드 플랫폼
  4. 단계별 데이터 파이프라인 설계, 고려사항


01. 데이터파이프라인 기술의 이해


  • 빅데이터란 : 기존 데이터베이스의 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터의 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. (위키)
  • 빅데이터의 조건 : 현재상황파악과 이에대한 원인분석 미래의 예측


빅데이터 활용 분석예

  • 페이스북 : 관련된 내용
  • 링크드인 : 연관성 분석
  • 아마존 : 구매제품과 관련된 제품


02. 유스케이스별 데이터 파이프라인 도구

데이터 수집 (agent의 경량화 방향으로 진행중)

  • logstash
    • Elk stack 가장 많은 input과 output 플러그인을 제공
    • 가장 다양한 형태의 데이터를 읽을 수 있고, 다양한 타입의 Output을 제공
  • fluentd
    • 과거에 인기있었으나, 신규툴에 비해 발전속도가 느림
    • 기존 플랫폼에 대하여 완벽히 제공하고 있음
  • embulk
    • fluentd를 경량화
  • beat
    • elk 와 결합해서 제공되는 경량 agent
  • apache flume
    •  hadoop과 완벽한 궁합
    • input과 output을 직접 개발해야 하는 경우가 많이 생김
    • 최근 인기가 줄어듬
  • aws sdk
  • gcloud sdk


저장,가공,분석

  • apache kakfa, kafka-rest
  • rabbitmq, activemq
  • redis, couchbase
  • nosql database, rdbms
  • s3, gcs
  • hadoop, elasticsearch
  • spark, athena, bigquery
  • datalab, dataproc, dataflow
  • kinesis, emr, redshift
  • kibana, datastudio
  • zeppelin