본문 바로가기

BIgData

Data Science(10월 10일, 김화종, 강원대 교수)

  1. Introduction : Data-Analytic Thinking 
    • Local Optimum : 주어진 상황에서 최선을 다해야 한다. 
    • Heuristic : 경험적 가치가 중요하다
    • 한 분야를 깊게 먼저 판 후 넓게 보자
    • PDA : Problem, Analytics, Data
    • Unusual Local Demand
    • 빅데이터는 데이터 엔지니어링 중 하나
  2. Biz problem and Data Science Solution
    • classification, class probability 
      • 미리 만들어놓은 카테고리 분류 나누기 / 상위 20% 선물 증정 Seg + 점수 매기기, 등수 매기기
    • Regression(가치의 측정)
    • Similarity Matching : ex 과학점수를 통해 수학점수를 예측 
    • Clustering : 임의로 4명씩 팀 만들기
    • Co-occurrence grouping : 맥주-기저귀
    • Profiling : 성향, 행동 분석(Outlier Modeling)
    • Link Prediction : SNS 분석: 친구관계
    • Data Reduction : 데이터를 줄여나가면서 앤트로피를 낮춘다- 유효한 값 발견
    • Casual modeling 
  3. 데이터 마이닝 과 결과값-의사결정트리- 타겟(통계에서 종속변수)
  4. Problem 을 정의하는 것이 가장 중요하다.(데이터 모으기 및 분석은 그 후에)
  5. Evaluation 과 Deployment 는 다르다.
  6. Predictive Modeling <->  Descriptive(기술)
    1. 2년 약정, 스페셜 쿠폰, 인덕션(특별한 케이스에서 일반론 도출)
    2.  Descriptive : 가치 측정(x), 현상을 통한 인사이트 발굴
  7. Supervised VS Unsupervised
  8. Entropy 
    • 결과값은 가능한 순도가 높아야 한다.
    • 타겟 Variable 을 존중한다.
    • Information gain : 엔트로피에 대한 기여도
    • Entropy : -p1log(p1)-p2log(P2)...
  1. 확률 X 가치 = 실제 기대값
  2. 정보량은 확률에 반비례 한다. log 1 (1/P)= 0, log10^6 = 6
  3. 엔트로피를 낮추어가는 것이 목표
  4. 잘 나눈다는 것은 ; 비슷한것끼리 나눈다= 순도가 높다
  5. A 보다 A'+B' 로 나눈 상태가 앤트로피가 낮아짐
  6. 단시간내 엔트로피가 떨어지는 정도가 중요, 마트 입구에서 손님 복장으로 100% 타겟팅을 한다면 이상적, 물건 구매력이 높은 손님에게 최고 점원을 붙여줘 매출을 상승 시킨다.
  7. 무조건 많이 나눈다고 좋은 것은 아니다.
  8. Linear Classier : Linear regression  - 1번에 여러 변수를 고려하여 예측: 1차함수의 합
  9. Taring Data : 모델을 실제 Data에 맞추려고 하면 안됨.