본문 바로가기

BIgData

Data Science(10월 10일, 김화종, 강원대 교수)

열정적인남자 2013. 10. 10. 18:06

Introduction : Data-Analytic Thinking

Local Optimum : 주어진 상황에서 최선을 다해야 한다.
Heuristic : 경험적 가치가 중요하다
한 분야를 깊게 먼저 판 후 넓게 보자
PDA : Problem, Analytics, Data
Unusual Local Demand
빅데이터는 데이터 엔지니어링 중 하나

Biz problem and Data Science Solution

classification, class probability

미리 만들어놓은 카테고리 분류 나누기 / 상위 20% 선물 증정 Seg + 점수 매기기, 등수 매기기

Regression(가치의 측정)
Similarity Matching : ex 과학점수를 통해 수학점수를 예측
Clustering : 임의로 4명씩 팀 만들기
Co-occurrence grouping : 맥주-기저귀
Profiling : 성향, 행동 분석(Outlier Modeling)
Link Prediction : SNS 분석: 친구관계
Data Reduction : 데이터를 줄여나가면서 앤트로피를 낮춘다- 유효한 값 발견
Casual modeling

데이터 마이닝 과 결과값-의사결정트리- 타겟(통계에서 종속변수)
Problem 을 정의하는 것이 가장 중요하다.(데이터 모으기 및 분석은 그 후에)
Evaluation 과 Deployment 는 다르다.
Predictive Modeling <-> Descriptive(기술)

2년 약정, 스페셜 쿠폰, 인덕션(특별한 케이스에서 일반론 도출)
Descriptive : 가치 측정(x), 현상을 통한 인사이트 발굴

Supervised VS Unsupervised
Entropy

결과값은 가능한 순도가 높아야 한다.
타겟 Variable 을 존중한다.
Information gain : 엔트로피에 대한 기여도
Entropy : -p1log(p1)-p2log(P2)...

확률 X 가치 = 실제 기대값
정보량은 확률에 반비례 한다. log 1 (1/P)= 0, log10^6 = 6
엔트로피를 낮추어가는 것이 목표
잘 나눈다는 것은 ; 비슷한것끼리 나눈다= 순도가 높다
A 보다 A'+B' 로 나눈 상태가 앤트로피가 낮아짐
단시간내 엔트로피가 떨어지는 정도가 중요, 마트 입구에서 손님 복장으로 100% 타겟팅을 한다면 이상적, 물건 구매력이 높은 손님에게 최고 점원을 붙여줘 매출을 상승 시킨다.
무조건 많이 나눈다고 좋은 것은 아니다.
Linear Classier : Linear regression - 1번에 여러 변수를 고려하여 예측: 1차함수의 합
Taring Data : 모델을 실제 Data에 맞추려고 하면 안됨.

'BIgData' 카테고리의 다른 글

Visualization (0)	2013.10.15
비즈니스 인텔리전스-(BI 현황과 미래, 투이컨설팅) (0)	2013.10.11
뉴스를 통해 본 빅데이터 트렌드(10월 10일, 이현종, 빅스터) (0)	2013.10.10
금융기관 빅데이터 활용사례(10월 4일, 이기만/KCB) (0)	2013.10.10
공공부문 빅데이터 활용사례(10월 4일, 임명선 / KCB) (0)	2013.10.10

티스토리툴바