데이터 사이언티스트

본문 바로가기

Model Selction(K-fold CV,Overfitting,Traing, CV Error) 오차율을 줄이는 방법은?데이터만 많으면 해결이 될까?알고리즘의 정확도를 올바르게 측정하는 방법 회귀모델의 다항식의 차수를 점차 늘려가면서 분석해본 그래프각각의 모델들이 잘설명하고 있는지 에러함수를 표시 - 많아질수록 결과가 산으로 간다.차수가 가장적은게 에러가 가장 적을 것이라 판단...할 것. 학습모델에 비해서 데이터가 작으니, 데이터 내 노이즈까지 학습해버리는(피팅해버리는) 현상 -> 오버피팅K-fold Cross Validation.트레이닝 에러와 테스트데이터 값을 본다. 위에 빨간선은 CV, 어느 순간부터 오버피팅차수를 높이면 높일수록 학습에 쓰였던 데이터에 대해서는 오차가 줄어들고 있다,극단적으로는 N-1까지 트레이닝 데이터로도 쓴다.(Leave one out CV) 차원의 저주 학습 모델에 비.. 더보기

지도학습-Supervised learning y의 형태가 입실론에 의해 변형된 값이라 가정 차중량에 따른 차 모델의 연비는 얼마였는가를 스캐터 플롯으로 확인하고, 최우도에 따른 선형그래프를 발견, 문제는 7이상이 되면 음수값이 나오는 것이 문제 2차함수로 변형했을 때는 5이상에서 값이 오히려 증가되는 문제따라서 어떤게 맞는지 모델선택이 필요해 진다. 더보기

KAISTk: KCS470 인공지능과 기계학습-2 기초 다변량 확률론주변확률분포 : 확률계산시 주변부에 계산되는 확률값이라는 유래가 있음. 베이즈룰은 라이클리후드 * 프라이어 1974 미국 모터트렌드 잡지에서 추출한 31개 데이터 엔진에 마력수를 안다면 실린더에 갯수는? 더보기

목록 더보기

티스토리툴바