빅데이터?
위키피디아 : 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합 조차 포함한 데이터로 부터 가치를 추출하고 결과를 분석하는 기술이다.
<기존의 데이터베이스>
- SQL기반의 데이터 베이스
- 주로 컴퓨터 1대서 돌아감, 고성능이 필요하면 사양이 좋은 컴퓨터 사용
- 컴퓨터 1대로 처리할 수 있는 용량과 성능의 한계
<대량의>
- 컴퓨터 1대로 처리할 수 없는 양(수십 TB이상)
- 3V (by IBM) - Volume, Velocity, Variety
<기술>
- 컴퓨터 1대로 처리하지 못하므로, 여러대를 연결해서 데이터를 저장하고 처리
- 주로 구글 등 검색엔진 회사들이 웹전체를 저장하고 처리할때 기술 개발
- 구글이 이끌고, 야후 등이 오픈소스를 통해(하둡) 적극 지원, 접근하기 쉬워지고 널리 쓰이기 시작
- 빅데이터 기술 = 대부분 하둡이라고 생각해도 무방
<정형,비정형>
- SQL기반의 데이터는 거의 행령 형태로 정형화된 데이터 였으나 일반 문서(웹 문서)등과 같이 비정형화된 데이터도 초점.
<가치를 추출하고 결과를 분석>
- 데이터를 저장만 해서는 쓸모가 없음.
- 데이터를 읽어 들이고, 변환하고, 핵심을 추출하는 것도 마찬가지로 컴퓨터 1대로 할 수 있는 것보다 훨씬 빨라져야함.
- 맵리듀스 (MapReduce) - 분산 데이터 처리
- 현재는 스파크(Apache Spark)가 널리 쓰임
왜 데이터를 분석하는가?
- 비싼 비용에도 불구하고 큰 양의 데이터를 분석하는 이유
- 실제로 사업에 도움이 되기 때문!
- 광고비즈니스, 커머스 금융 분야에서는 데이터가 매출과 직결되기에 비싼 비용에도 데이터 분석에 공을 들임.
- 데이터 분석이 쉽고 저렵해지면서, 일반 서비스 회사들에서도 독자적인 데이터 분석을 하는 경우 많음.
- BI (Business Intelligence) 데이터 분석을 통해 인사이트를 얻고 제품이나 경영 전략을 세우는일
Add Comment