- Introduction : Data-Analytic Thinking
- Local Optimum : 주어진 상황에서 최선을 다해야 한다.
- Heuristic : 경험적 가치가 중요하다
- 한 분야를 깊게 먼저 판 후 넓게 보자
- PDA : Problem, Analytics, Data
- Unusual Local Demand
- 빅데이터는 데이터 엔지니어링 중 하나
- Biz problem and Data Science Solution
- classification, class probability
- 미리 만들어놓은 카테고리 분류 나누기 / 상위 20% 선물 증정 Seg + 점수 매기기, 등수 매기기
- Regression(가치의 측정)
- Similarity Matching : ex 과학점수를 통해 수학점수를 예측
- Clustering : 임의로 4명씩 팀 만들기
- Co-occurrence grouping : 맥주-기저귀
- Profiling : 성향, 행동 분석(Outlier Modeling)
- Link Prediction : SNS 분석: 친구관계
- Data Reduction : 데이터를 줄여나가면서 앤트로피를 낮춘다- 유효한 값 발견
- Casual modeling
- 데이터 마이닝 과 결과값-의사결정트리- 타겟(통계에서 종속변수)
- Problem 을 정의하는 것이 가장 중요하다.(데이터 모으기 및 분석은 그 후에)
- Evaluation 과 Deployment 는 다르다.
- Predictive Modeling <-> Descriptive(기술)
- 2년 약정, 스페셜 쿠폰, 인덕션(특별한 케이스에서 일반론 도출)
- Descriptive : 가치 측정(x), 현상을 통한 인사이트 발굴
- Supervised VS Unsupervised
- Entropy
- 결과값은 가능한 순도가 높아야 한다.
- 타겟 Variable 을 존중한다.
- Information gain : 엔트로피에 대한 기여도
- Entropy : -p1log(p1)-p2log(P2)...
- 확률 X 가치 = 실제 기대값
- 정보량은 확률에 반비례 한다. log 1 (1/P)= 0, log10^6 = 6
- 엔트로피를 낮추어가는 것이 목표
- 잘 나눈다는 것은 ; 비슷한것끼리 나눈다= 순도가 높다
- A 보다 A'+B' 로 나눈 상태가 앤트로피가 낮아짐
- 단시간내 엔트로피가 떨어지는 정도가 중요, 마트 입구에서 손님 복장으로 100% 타겟팅을 한다면 이상적, 물건 구매력이 높은 손님에게 최고 점원을 붙여줘 매출을 상승 시킨다.
- 무조건 많이 나눈다고 좋은 것은 아니다.
- Linear Classier : Linear regression - 1번에 여러 변수를 고려하여 예측: 1차함수의 합
- Taring Data : 모델을 실제 Data에 맞추려고 하면 안됨.
'BIgData' 카테고리의 다른 글
Visualization (0) | 2013.10.15 |
---|---|
비즈니스 인텔리전스-(BI 현황과 미래, 투이컨설팅) (0) | 2013.10.11 |
뉴스를 통해 본 빅데이터 트렌드(10월 10일, 이현종, 빅스터) (0) | 2013.10.10 |
금융기관 빅데이터 활용사례(10월 4일, 이기만/KCB) (0) | 2013.10.10 |
공공부문 빅데이터 활용사례(10월 4일, 임명선 / KCB) (0) | 2013.10.10 |