구태훈(Robin.koo@Teradata.com)
빅데이터 특징과 비즈니스 가치
1. 빅데이터 시대의 기회
- 서울시 - 지도 강남 스타일, 진짜 강남은?
- 청담동은 지도상에서 강남으로 유입되지 않는 모습을 확인
- 진짜 강남스타일은 청담 - 선호기사 대비 - 광고 매출 분석
- Dark 데이터 -소셜미디어- 공공 상업 데이터 모두 분석
Analytics 는 원숭이와 사람을 구분하는 DNA 1%와 같다.
2. 빅데이터 가치 생산자, 데이터사이언티스트
추천도서 - Super Crunchers, Ian Ayres
Data Scientist Skill set
- 데이터 분석
- 데이터 메니징
- 데이터 디벨롭
- 데이터 과학자의 하루는 Integrate - Investigate- Implement
- 데이터 과학자 팀 맴버
- 파이썬- 다단계 프로그래밍 구현
- 가설검증 설계
- R로 데이터 샘플, 회귀분석 수행
- 데이터 집중적인 제품 또는 서비스를 위한 알고리즘을 개발
- 명료하게 분석결과 전달
3.산업별 빅데이터 탐색 및 분석 사례
- 기계센서 데이터 분석- 정밀 공정(제조), 장비데이터 1/1000초 단위로 패턴 분석 - 수율 극대화 Ex)반도체 생산장비 운영 데이터( Sax Algorithum)- Wafer
- GE 터빈 사례
- 탤래메틱스 데이터 기반에 시공간 분석 - 사고구간에 부품 패턴 분석, 수리부품의 연관분석, 유사 차량, 유사 고객, 유사 운행 정보기반 분석
- 미 육군 아파치 헬기 운영 데이터 분석
- AT&T 빅데이터 분석
- 1) 가입고객의 통화 등의 데이터로 소셜네트워크 작성
- 2) 통화 연결이 끊어지는 고객 추적
- 3) 고객가치로 평가
- 4) 영향력 있는 고객 선정
- SCE 스마트 그리드, NASA 기상예측 분석
- 디저털 마케팅 최적화
- Otto 그룹 고객행동을 위한 DNA 개발 사례- 고객행동분석 DNA 워크샵 후 방향성 결정
- 반즈엔 노블 분석 VS 아마존 " 개인화 추천 / 웹 행동 분석 / 유통업무 예측
- 소셜네트워크 및 관계 분석
- 링크드인 - 100TB이상 Aster (태라) 시스템 적용
- SNS상 영향력이 높은 회원 찾기, 바이러스 전파의 추세와 경향을 찾는 분석 기법 제공
- 심도 깊은 클릭 스트림 분석
- 회원 등급별로 링크드인 사용 현황 분석
- 전화사용을 이해하기 위한 모바일 어플 활용 분석
- 회원에 대한 이탈 분석
- 광고효과에 대한 수익 분석
- Hard Worker / Revenue Improvement 상관관계
- CEO 네임은 피터/밥/젝/브루스/ 등 짧다...- 하위 직종일수록 히스패닉 ... 이름 길다.
- 링크드인 회원의 분석 어플리케이션 중에 커리어 센터
- - 이력에 대한 경로 및 분석 조회
- 특정위치에 오르기 위하여 어떤 경로를 선택할지를 자문.
- 사기(Fraud) 적발 및 예방
- Vodafone, 소매금융(계좌거래 끊는 패턴 분석)
- 특정 임계치 이상의 거래로 고객의 거래 행동을 npath MapReduce 를 통해서 탐색
- 금융권- Discover 사례, (CPP;Common Point of Purchase)문제 해결
비즈니스 가치를 창출하는 신기술과 방법
1. 빅데이터 신기술-데이터 수집, 저장, 분석, 시각화
하둡 / 맵리듀스
100권에 있는 책속에 있는 단어 Sorting
Doug Cutting - 맵리듀스
HDFS : 다수의 시스템 노드에서 대용량의 파일을 저장 및 복제하는 분산파일 시스템
맵리듀스 : 대규모 시스템 클러스터에서 대용량의 데이터 파일(보통 HDFS 파일)처리를 분산하기 위한 프로그램 모델
Pig: 맵리듀스 작업을 생성해 대용량의 데이터 파일을 분석하는 고급 데이터 흐름 언어(Pig Latin)및 컴파일러
HIVE : 맵리듀스 작업을 생성해 대용량의 데이터 파일을 분석하는 SQL 과 유사 언어 및 최적화를 제공
HBase : 구글 빅 테이블을 따라 모델링한 분산 DBMS
Sqoop : 관계형 DBMS와 하둡간 데이터 이동을 위한 도구
2. 빅데이터 아키텍처 진단 및 설계 방법
하둡 특성
- 스키마를 가지고 있지 않음
- 코드와 자료구조와 분리되어 있지 않음
- 맵리듀스가 낮은수준의 프로그램 언어
- 낮은생산성 , 높은 TCO(Total Cost of Operation)
- 맵리듀스로 구현하는데 어려움
- 인덱스가 없음, 데이터 치우침(Scew) 발생
- DBMS Tool 과 호환에 어려움
- BI Tool 과 호환에 어려움
- BI tool 과의 호환에 어려움
- Data Mining Tool 과의 호환에 어려움
- 데이터 베이스 셜계 툴과의 호환 어려움
In-Database RDBMS 성능을 통해 더 많은 데이터를 더 짧은 시간에 분석
In-Memory 분석 신시간 분석과 처리가 가능 하도록 특정 양의 데이터 처리를 극대화 하는 방법
CEP : Complex Event Processing
eBay Data Hub-Experimentation Platform
모든건 좀 더 단순하게가 아니라 가능한 가장 단순하게 해야한다.- 아인슈타인
3. 빅데이터 탐색 및 분석 방법