빅데이터란
개요
-
우선 데이터는 스마트카 빅데이터를 활용할 것이다.
-
PoC, PoV 중심으로 진행
-
데이터 수집 → 적재 → 처리 및 탐색 → 분석 및 운용 순으로 진행할 것이다.
-
데이터 적재는 배치데이터의 경우에는 하둡을 활용하고 리얼타임 데이터는 HBase를 활용할 것이다.
-
데이터 처리 순서는 Data Lake → 데이터 처리 및 탐색 → 데이터 마트(데이터 마이닝, 머신러닝, 딥러닝으로 연결) → API화 순으로 처리할 예정이다.
- 우선 이번 글에는 프로젝트 진행 전 빅데이터의 개념에 대해 정리할 것이다.
빅데이터의 개념
- 단순히 큰 데이터, 큰 정보로만 보지 않음, 과거로부터 현재까지 쌓인 데이터를 분석해 현재를 이해, 데이터에서 만들어지는 다양한 패턴을 해석해 미래를 예측하기 시작, 조직의 중요한 의사결정에 빅데이터가 활용 됨. 큰 데이터 집합에서 기술, 분석, 통찰력까지 총칭하는 용어로 사용.
6V
-
3V
-
Volume(크기): 방대한 데이터(테라, 페타바이트 이상의 크기)
-
Varity(다양성): 정형(DBMS,전문 등) + 비정형(SNS, 동영상, 사진, 음성, 텍스트 등)
-
Velocity(속도): 실시간으로 생산되며, 빠른 속도로 데이터를 처리/분석
-
2V
-
Veracity(진실성): 주요 의사결정을 위해 데이터 품질과 신뢰성 확보
-
Visualization(시각화): 복잡한 대규모 데이터를 시각적으로 표현
-
Value(가치): 비즈니스 효익을 실천하기 위해 궁극적인 가치를 창충
빅데이터의 활용
-
상품/서비스 : 빅테이터를 상품/서비스 개발 및 개선에 활용.
-
고객/마케팅 : 빅데이터를 대규모 고객 및 시장 분석에 활용.
-
리스크 관리 : 빅데이터를 리스크 검출 및 예측 분석에 활용.
-
빅데이터 레이크 & 웨어하우스 → 빅데이터 마트 → Insight → buisness
빅데이터 프로젝트 유형
-
플랫폼 구축형 프로젝트
-
전형적인 빅데이터 SI 구축형 사업. 빅데이터의 하드웨어와 소프트웨어를 설치 및 구성. 수집 → 적재 → 처리 → 탐색 → 분석의 기능을 구현
-
3~6개월 정도 추진
-
-
빅데이터 분석 프로젝트
- 빅데이터 플랫폼 구축 완료 후 수행.
- 빅데이터 탐색으로 데이터의 이해가 높아질 때 시작.
- 조직의 가치 사슬 중, 대규모 분석이 필요한 시점에 추진
- 1~3개월 일정으로 추진.
- 분석주제영역 : 마케팅/고객, 상품/서비스 개발, 리스크 관리
-
빅데이터 운영 프로젝트
- 구축 완료 된 플랫폼을 중장기적으로 유지 관리.
- 대규모 하드웨어/소프투웨어로 운영 비용이 높음.
- 빅데이터 분야별 전문가 그룹이 확보 되야 함.
- 빅데이터 거버넌스 체계를 수립 해야 함.
도메인 이해 및 환경 구성
-
소프트웨어 아키텍처
-
수집 레이어 : Flume(배치 데이터 바로 하둡으로), Kafka, Storm & Esper( 이벤트 데이터 HBase,Redis)
-
적재 레이어 : Hadoop(배치), HBase, Redis(리얼타임)(데이터 웨어하우스를 만드는데 활용)
-
처리/탐색 영역 : Hue, Hive/Spark/Oozie
-
분석/응용 영역 : R/Tensorflow, Mahout(머하웃), Impala,Zeppelin
빅데이터 기술 접근법
-
플랫폼 전문가 : 하둡 에코시스템 설치 및 구성
-
수집/적재 전문가 : 대규모 데이터 연동 및 통합
-
처리/탐색 전문가 : 데이터 모델 설계 및 처리
-
분석/응용 전문가 : 도메인 분석 및 인사이트 도출
-
처리/탐섹 레이어 : Hue