Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.


  1. 데이터 파이프라인 기술의 이해
  2. 유스케이스별 데이터 파이프라인 도구
  3. 빅데이터 분석에 활용되는 클라우드 플랫폼
  4. 단계별 데이터 파이프라인 설계, 고려사항



01. 데이터파이프라인 기술의 이해


  • 빅데이터란 : 기존 데이터베이스의 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터의 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. (위키)
  • 빅데이터의 조건 : 현재상황파악과 이에대한 원인분석 미래의 예측


빅데이터 활용 분석예

  • 페이스북 : 관련된 내용
  • 링크드인 : 연관성 분석
  • 아마존 : 구매제품과 관련된 제품


02. 유스케이스별 데이터 파이프라인 도구

데이터 수집 (agent의 경량화 방향으로 진행중)

  • logstash
    • Elk stack 가장 많은 input과 output 플러그인을 제공
    • 가장 다양한 형태의 데이터를 읽을 수 있고, 다양한 타입의 Output을 제공
  • fluentd
    • 과거에 인기있었으나, 신규툴에 비해 발전속도가 느림
    • 기존 플랫폼에 대하여 완벽히 제공하고 있음
  • embulk
    • fluentd를 경량화
  • beat
    • elk 와 결합해서 제공되는 경량 agent
  • apache flume
    •  hadoop과 완벽한 궁합
    • input과 output을 직접 개발해야 하는 경우가 많이 생김
    • 최근 인기가 줄어듬
  • aws sdk
  • gcloud sdk


저장,가공,분석

  • apache kakfa, kafka-rest
  • rabbitmq, activemq
  • redis, couchbase
  • nosql database, rdbms
  • s3, gcs
  • hadoop, elasticsearch
  • spark, athena, bigquery
  • datalab, dataproc, dataflow
  • kinesis, emr, redshift
  • kibana, datastudio
  • zeppelin



logstash

Info
iconfalse

<<기본실행>>

$logstash -f logstash.conf


<<config file구조>>

input {

file {

path => "file path (* 처리 가능)"

}

}


filter {

mutate { convert => {"user_id" => "Integer"}}

}


output {

elasticsearch {

index => "access-log-%{YYYY.MM.dd}"

host => "123.456.789.123:9200"

}

}


<<config test>>

$logstach -f logstash.conf --configtest