본문 바로가기

카테고리 없음

비즈니스 가치를 생산하는 빅데이터 기술(10월 2일/구태훈 이사/태라데이터)

구태훈(Robin.koo@Teradata.com)


빅데이터 특징과 비즈니스 가치

1. 빅데이터 시대의 기회

  •  서울시 - 지도 강남 스타일, 진짜 강남은? 
                - 청담동은 지도상에서 강남으로 유입되지 않는 모습을 확인
                - 진짜 강남스타일은 청담
  • 선호기사 대비 - 광고 매출 분석
  • Dark 데이터 -소셜미디어- 공공 상업 데이터 모두 분석

Analytics 는 원숭이와 사람을 구분하는 DNA 1%와 같다.

2. 빅데이터 가치 생산자, 데이터사이언티스트

추천도서 - Super Crunchers, Ian Ayres

Data Scientist Skill set 

  • 데이터 분석
  • 데이터 메니징
  • 데이터 디벨롭
  • 데이터 과학자의 하루는 Integrate - Investigate- Implement
  • 데이터 과학자 팀 맴버
    - 파이썬- 다단계 프로그래밍 구현
    - 가설검증 설계
    - R로 데이터 샘플, 회귀분석 수행
    - 데이터 집중적인 제품 또는 서비스를 위한 알고리즘을 개발
    - 명료하게 분석결과 전달

3.산업별 빅데이터 탐색 및 분석 사례

  1. 기계센서 데이터 분석- 정밀 공정(제조), 장비데이터 1/1000초 단위로 패턴 분석 - 수율 극대화 Ex)반도체 생산장비 운영 데이터( Sax Algorithum)- Wafer
  1. GE 터빈 사례
  2. 탤래메틱스 데이터 기반에 시공간 분석 - 사고구간에 부품 패턴 분석, 수리부품의 연관분석, 유사 차량, 유사 고객, 유사 운행 정보기반 분석
  3. 미 육군 아파치 헬기 운영 데이터 분석
  4. AT&T 빅데이터 분석 
    • 1) 가입고객의 통화 등의 데이터로 소셜네트워크 작성
    • 2) 통화 연결이 끊어지는 고객 추적
    • 3) 고객가치로 평가
    • 4) 영향력 있는 고객 선정
  5. SCE 스마트 그리드, NASA 기상예측 분석
  1. 디저털 마케팅 최적화
  1. Otto 그룹 고객행동을 위한 DNA 개발 사례- 고객행동분석 DNA 워크샵 후 방향성 결정
  2. 반즈엔 노블 분석 VS 아마존 " 개인화 추천 / 웹 행동 분석 / 유통업무 예측
  • 소셜네트워크 및 관계 분석
  1. 링크드인 - 100TB이상 Aster (태라) 시스템 적용
  2. SNS상 영향력이 높은 회원 찾기, 바이러스 전파의 추세와 경향을 찾는 분석 기법 제공
  3. 심도 깊은 클릭 스트림 분석
  4. 회원 등급별로 링크드인 사용 현황 분석
  5. 전화사용을 이해하기 위한 모바일 어플 활용 분석
  6. 회원에 대한 이탈 분석
  7. 광고효과에 대한 수익 분석
  8. Hard Worker / Revenue Improvement 상관관계
  9. CEO 네임은 피터/밥/젝/브루스/ 등 짧다...- 하위 직종일수록 히스패닉 ... 이름 길다.
  10. 링크드인 회원의 분석 어플리케이션 중에 커리어 센터
  11. - 이력에 대한 경로 및 분석 조회
  12. 특정위치에 오르기 위하여 어떤 경로를 선택할지를 자문.

  • 사기(Fraud) 적발 및 예방
  1. Vodafone, 소매금융(계좌거래 끊는 패턴 분석)
  2. 특정 임계치 이상의 거래로 고객의 거래 행동을 npath MapReduce 를 통해서 탐색
  3. 금융권- Discover 사례, (CPP;Common Point of Purchase)문제 해결

비즈니스 가치를 창출하는 신기술과 방법

1. 빅데이터 신기술-데이터 수집, 저장, 분석, 시각화

하둡 / 맵리듀스

100권에 있는 책속에 있는 단어 Sorting

Doug Cutting - 맵리듀스

HDFS : 다수의 시스템 노드에서 대용량의 파일을 저장 및 복제하는 분산파일 시스템

맵리듀스 : 대규모 시스템 클러스터에서 대용량의 데이터 파일(보통 HDFS 파일)처리를 분산하기 위한 프로그램 모델

Pig: 맵리듀스 작업을 생성해 대용량의 데이터 파일을 분석하는 고급 데이터 흐름 언어(Pig Latin)및 컴파일러

HIVE : 맵리듀스 작업을 생성해 대용량의 데이터 파일을 분석하는 SQL 과 유사 언어 및 최적화를 제공

HBase : 구글 빅 테이블을 따라 모델링한 분산 DBMS

Sqoop : 관계형 DBMS와 하둡간 데이터 이동을 위한 도구


2. 빅데이터 아키텍처 진단 및 설계 방법

하둡 특성 

  • 스키마를 가지고 있지 않음
  • 코드와 자료구조와 분리되어 있지 않음
  • 맵리듀스가 낮은수준의 프로그램 언어
  • 낮은생산성 , 높은 TCO(Total Cost of Operation)
  • 맵리듀스로 구현하는데 어려움
  • 인덱스가 없음, 데이터 치우침(Scew) 발생
  • DBMS Tool 과 호환에 어려움
  • BI Tool 과 호환에 어려움
  • BI tool 과의 호환에 어려움
  • Data Mining Tool 과의 호환에 어려움
  • 데이터 베이스 셜계 툴과의 호환 어려움
In-Database RDBMS 성능을 통해 더 많은 데이터를 더 짧은 시간에 분석
In-Memory 분석 신시간 분석과 처리가 가능 하도록 특정 양의 데이터 처리를 극대화 하는 방법
CEP : Complex Event Processing
eBay Data Hub-Experimentation Platform

모든건 좀 더 단순하게가 아니라 가능한 가장 단순하게 해야한다.- 아인슈타인


3. 빅데이터 탐색 및 분석 방법