빅데이터란

개요

  • 우선 데이터는 스마트카 빅데이터를 활용할 것이다.

  • PoC, PoV 중심으로 진행

  • 데이터 수집 → 적재 → 처리 및 탐색 → 분석 및 운용 순으로 진행할 것이다.

  • 데이터 적재는 배치데이터의 경우에는 하둡을 활용하고 리얼타임 데이터는 HBase를 활용할 것이다.

  • 데이터 처리 순서는 Data Lake → 데이터 처리 및 탐색 → 데이터 마트(데이터 마이닝, 머신러닝, 딥러닝으로 연결) → API화 순으로 처리할 예정이다.


  • 우선 이번 글에는 프로젝트 진행 전 빅데이터의 개념에 대해 정리할 것이다.

빅데이터의 개념

  • 단순히 큰 데이터, 큰 정보로만 보지 않음, 과거로부터 현재까지 쌓인 데이터를 분석해 현재를 이해, 데이터에서 만들어지는 다양한 패턴을 해석해 미래를 예측하기 시작, 조직의 중요한 의사결정에 빅데이터가 활용 됨. 큰 데이터 집합에서 기술, 분석, 통찰력까지 총칭하는 용어로 사용.

6V

  • 3V

  • Volume(크기): 방대한 데이터(테라, 페타바이트 이상의 크기)

  • Varity(다양성): 정형(DBMS,전문 등) + 비정형(SNS, 동영상, 사진, 음성, 텍스트 등)

  • Velocity(속도): 실시간으로 생산되며, 빠른 속도로 데이터를 처리/분석

  • 2V

  • Veracity(진실성): 주요 의사결정을 위해 데이터 품질과 신뢰성 확보

  • Visualization(시각화): 복잡한 대규모 데이터를 시각적으로 표현

  • Value(가치): 비즈니스 효익을 실천하기 위해 궁극적인 가치를 창충


빅데이터의 활용

  • 상품/서비스 : 빅테이터를 상품/서비스 개발 및 개선에 활용.

  • 고객/마케팅 : 빅데이터를 대규모 고객 및 시장 분석에 활용.

  • 리스크 관리 : 빅데이터를 리스크 검출 및 예측 분석에 활용.

  • 빅데이터 레이크 & 웨어하우스 → 빅데이터 마트 → Insight → buisness


빅데이터 프로젝트 유형

  • 플랫폼 구축형 프로젝트

    • 전형적인 빅데이터 SI 구축형 사업. 빅데이터의 하드웨어와 소프트웨어를 설치 및 구성. 수집 → 적재 → 처리 → 탐색 → 분석의 기능을 구현

    • 3~6개월 정도 추진

  • 빅데이터 분석 프로젝트

    • 빅데이터 플랫폼 구축 완료 후 수행.
    • 빅데이터 탐색으로 데이터의 이해가 높아질 때 시작.
    • 조직의 가치 사슬 중, 대규모 분석이 필요한 시점에 추진
    • 1~3개월 일정으로 추진.
    • 분석주제영역 : 마케팅/고객, 상품/서비스 개발, 리스크 관리
  • 빅데이터 운영 프로젝트

    • 구축 완료 된 플랫폼을 중장기적으로 유지 관리.
    • 대규모 하드웨어/소프투웨어로 운영 비용이 높음.
    • 빅데이터 분야별 전문가 그룹이 확보 되야 함.
    • 빅데이터 거버넌스 체계를 수립 해야 함.

도메인 이해 및 환경 구성

  • 소프트웨어 아키텍처

  • 수집 레이어 : Flume(배치 데이터 바로 하둡으로), Kafka, Storm & Esper( 이벤트 데이터 HBase,Redis)

  • 적재 레이어 : Hadoop(배치), HBase, Redis(리얼타임)(데이터 웨어하우스를 만드는데 활용)

  • 처리/탐색 영역 : Hue, Hive/Spark/Oozie

  • 분석/응용 영역 : R/Tensorflow, Mahout(머하웃), Impala,Zeppelin


빅데이터 기술 접근법

  • 플랫폼 전문가 : 하둡 에코시스템 설치 및 구성

  • 수집/적재 전문가 : 대규모 데이터 연동 및 통합

  • 처리/탐색 전문가 : 데이터 모델 설계 및 처리

  • 분석/응용 전문가 : 도메인 분석 및 인사이트 도출

  • 처리/탐섹 레이어 : Hue