데이터 수집
- http://en.wikipedia.org/wiki/Sample_size_determination
- http://en.wikipedia.org/wiki/Design_of_experiments
데이터 준비
- How to share data with a statistician
- Tidy Data 주어진 데이터를 분석에 용이한 형태로 변형하는 것에 대한 Hadley교수의 논문과 R패키지
데이터 분석
- Simply Statistics 통계 관련 유명 블로그
- StatBlogs 통계 블로그 모음
- KDNuggets 데이터마이닝 관련 커뮤니티 포탈
- D3 Visualization of Confidence Interval 이외에도 많은 통개 개념에 대한 시각화를 제공
- Conf. interval vs. Hypothesis Testing — Cross-Validated
- Statistics Done Wrong (PDF — early version
시각화
- http://www.visualizing.org
- http://flowingdata.com
- http://junkcharts.typepad.com
- http://www.gapminder.org
- http://www.targetprocess.com/articles/information-visualization/
기계학습
- A Programmer’s Guide to Data Mining
- Advice for applying Machine Learning 기계학습 모델을 디버깅하는 방법에 대한 Python 튜토리얼
- A Few Useful Things to Know about Machine Learning ML/IE/NLP쪽으로 잘 알려진 UW의 Pedro Domingos가 정리한 내용
- Machine Learning: The High Interest Credit Card of Technical Debt 역시 기계학습을 현업에 적용하는 과정에서의 주의사항을 정리한 구글의 논문
검색 & 추천
- Introduction to Information Retrieval
- Evaluating Recommender Systems 추천 시스템(RecSys) 평가에 대한 MSR의 서베이 논문
분석 도구별
Excel / Spreadsheet
- http://chandoo.org/wp/
- http://excelexposure.com/
- http://www.skilledup.com/articles/free-excel-tutorials/
- EuSpRIG Spreadsheet mistakes – horror stories
- Art of the Spreadsheet
R
- http://www.r-tutor.com/elementary-statistics
- http://www.ats.ucla.edu/stat/r/
- http://www.statmethods.net/
- http://swirlstats.com/
- https://www.datacamp.com/courses/free-introduction-to-r
- Little Book of R for Time Series
- R Cheatsheets
Python
- http://pandas.pydata.org/
- http://ipython.org/notebook.html
- http://radimrehurek.com/data_science_python/
- Probabilistic Programming and Bayesian Methods for Hackers 파이썬 Bayesian 툴킷인 PyMC를 사용한 Bayesian 기법 교재
- 비슷한 패키지로 R쪽에는 OpenBugs가 잘 알려져 있음
RDBMS
- http://www.dbguide.net 데이터베이스 관련 전문가 인터뷰 등
자료 유형별
무료 도서
NLP / IR / Text Mining
- Mining of Massive Datasets
- Natural Language Processing with Python
- Data-Intensive Text Processing with MapReduce
Machine Learning / Statistics
- Introduction to Statistical Thoughts
- Think Stats (2nd edition)
- http://www.wzchen.com/probability-cheatsheet
Information Visualization
Cheatsheet
- Slide Chooser Cheatsheet – The Extreme Presentation(tm) http://buff.ly/1D4M87q 프리젠테이션 슬라이드의 내용에 맞게 레이아웃을 고를 수 있는 가이드
- How to Choose the Right Chart http://buff.ly/1yJyyLr 데이터 유형 및 분석 목표에 따라 시각화를 고르는 방법을 설명
- ML Algorithm Selection Guide from Scikit-Learn
- ML Algorithm Selection Guide from DLib Library
- R Data Mining Reference Card
- What statistical analysis should I use?
컬럼/블로그
수업 자료
데이터셋
일반 데이터셋
- Google Public Data Explorer: 다양한 지역별/분야별 통계 자료를 시각화로 제공. 데이터원을 통해 원본 데이터 다운로드도 가능
- Statista : 분야별 통계자료. 무료계정으로 상당히 많은 자료 이용
- The Data and Story Library 교육용 데이터셋. 주제 / 통계기법별 데이터 제공
- Journal of Statistics Education Data Archive 통계 교육용 데이터
- https://tuvalabs.com/datasets/ 교육용 데이터 확산을 이념으로 하는 스타트업에서 공개한 데이터셋. 각 데이터마다 적절한 시각화도
- List of Dataset Collections
분야별 데이터셋
- WorldBank Data Catalog: 국가별 개발상황 등을 포함하는 종합 통계 제공
- World Trade Organization DataSet
- Sports Dataset Archive
- FiveThirtyEight의 데이터 통계학자/데이터과학자인 Nate Silver의 분석 데이터 및 스크립트가 공개
국내 데이터셋
빅데이터 / API
데이터셋 패키지 (R)
기타
데이터과학 커리어
- http://www.quora.com/How-do-I-become-a-data-scientist
- http://www.slideshare.net/ryanorban/how-to-become-a-data-scientist
- http://www.oreilly.com/data/free/files/analyzing-the-analyzers.pdf
- http://firstround.com/review/how-to-consistently-hire-remarkable-data-scientists/
데이터과학 자료 모음
- http://hackershelf.com/browse/?popular=1
- http://datascienc.es/resources/
- http://101.datascience.community/
- http://www.quora.com/What-is-the-Data-Science-topic-FAQ
- http://www.quora.com/What-are-the-best-blogs-about-data
- http://www.quora.com/What-is-your-source-of-machine-learning-and-data-science-news-Why
개인을 위한 데이터 과학
개인 데이터 수집/분석에 관련된 자료입니다.
기사
- http://www.wired.com/2013/12/wearable-computers/
- http://www.pewinternet.org/2013/01/28/tracking-for-health/
- http://lifehacker.com/tag/tracking
- http://www.scoop.it/t/quantified-self-lifestyle-design Curated News
블로그 / 개인
- http://busterbenson.com/
- http://feltron.com/
- http://lifestreamblog.com/lifelogging/
- http://experimentable.com/qs-guide/
- http://measuredme.com/category/self-experimentation/
- http://blog.sethroberts.net/category/self-experimentation/
서비스
출처_http://www.hellodatascience.com/