빅데이터?

위키피디아 : 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합 조차 포함한 데이터로 부터 가치를 추출하고 결과를 분석하는 기술이다.


<기존의 데이터베이스>

    • SQL기반의 데이터 베이스
    • 주로 컴퓨터 1대서 돌아감, 고성능이 필요하면 사양이 좋은 컴퓨터 사용
    • 컴퓨터 1대로 처리할 수 있는 용량과 성능의 한계

<대량의>

    • 컴퓨터 1대로 처리할 수 없는 양(수십 TB이상)
    • 3V (by IBM) - Volume, Velocity, Variety

<기술>

    • 컴퓨터 1대로 처리하지 못하므로, 여러대를 연결해서 데이터를 저장하고 처리
    • 주로 구글 등 검색엔진 회사들이 웹전체를 저장하고 처리할때 기술 개발
    • 구글이 이끌고, 야후 등이 오픈소스를 통해(하둡) 적극 지원,  접근하기 쉬워지고 널리 쓰이기 시작
    • 빅데이터 기술 = 대부분 하둡이라고 생각해도 무방

<정형,비정형>

    • SQL기반의 데이터는 거의 행령 형태로 정형화된 데이터 였으나 일반 문서(웹 문서)등과 같이 비정형화된 데이터도 초점.

<가치를 추출하고 결과를 분석>

    • 데이터를 저장만 해서는 쓸모가 없음.
    • 데이터를 읽어 들이고, 변환하고, 핵심을 추출하는 것도 마찬가지로 컴퓨터 1대로 할 수 있는 것보다 훨씬 빨라져야함.
    • 맵리듀스 (MapReduce) - 분산 데이터 처리 
    • 현재는 스파크(Apache Spark)가 널리 쓰임


왜 데이터를 분석하는가?

  • 비싼 비용에도 불구하고 큰 양의 데이터를 분석하는 이유
  • 실제로 사업에 도움이 되기 때문!
  • 광고비즈니스, 커머스 금융 분야에서는 데이터가 매출과 직결되기에 비싼 비용에도 데이터 분석에 공을 들임.
  • 데이터 분석이 쉽고 저렵해지면서, 일반 서비스 회사들에서도 독자적인 데이터 분석을 하는 경우 많음.
    • BI (Business Intelligence) 데이터 분석을 통해 인사이트를 얻고 제품이나 경영 전략을 세우는일
  • No labels
Write a comment…