#title 통계와 머신러닝
[[TableOfContents]]

작성중...
Python으로 해보려고는 하고 있는데.. 아직까지 R이 훨씬 편한다.. 아.. 하기 싫다..


다음 그림은 개략적인 데이터 분석의 흐름을 보여준다. 통계와 머신 러닝의 경계가 모호하고 분명히 교집합[* 대표적으로 회귀(Regression)이 그렇다]이 있지만, 
 * 통계(Statistics): 추정(Estimation), 가설 검증(Hypothesis Testing)
 * 머신 러닝(Machine Learning): 분류(Classification), 군집(Clustering), 회귀(Regression) 
과 같이 분류하면 조금은 편할 것 같다. 
attachment:CategoryMachineLearning/data_analysis.png


{{{
import pandas as pd
import numpy as np
}}}

==== 개념 ====
 * [베이지안 세계관]

==== 자료 수집과 준비(Data Collection & Preparation) ====
데이터 읽기[* 데이터 분석을 위해 데이터를 import해야 한다. 경험적으로는 다음의 3가지가 대부분이다.]
 * [DB에서 데이터 읽기]
 * [File에서 데이터 읽기]
 * [문자열로 DataFrame 만들기]
 * [JSON 파싱하기]
 * [Hive에서 데이터 읽기]

데이터 준비[* pandas의 dataframe이나 series에서 데이터를 주무르는 방법들]
 * [DataFrame을 SQL로 다루기][* R에서의 sqldf와 비슷한 것]
 * [DataFrame - iris]
 * [DataFrame - 훈련 세트와 테스트 세트로 나누기]
 * [Hash Table 흉내내기]
 * [http://pinkwink.kr/1025?category=580892 한글 자연어 처리를 할 때 필수 모듈 - KoNLPy 소개]

==== 기술통계(Descriptive Statistics) ====
아.. python으로 해야 하나? 난 SQL과 Excel이 훨씬 편하단 말이야..

목적
 * 데이터의 이해를 위해 시각화하고 요약
 * 데이터의 특성 및 분포 파악

데이터 살펴보기
 * [Python - Scatter Plot]
 * [Python - Histogram]
 * [Python - Arrow]
==== 탐색적 데이터 분석(Exploratory Data Analysis) ====

==== 추정(Estimation) ====

 * [베이지안 - 동전 던지기]
==== 가설 검정(Hypothesis Testing) ====
 * [Python - t-test]
 * [Python - 비율 검정]
==== 회귀(Regression) ====
 * [Python - Linear Regression]
 * [Python - Non-Linear Regression]
==== 분류(Classification) ====
분류기
 * [Python - kNN]  [k-Nearest Neighbors]
 * [Python - Logistic Classification]
 * [Python - Support Vector Machine]
 * [Python - Neural network]
 * [Python - Extremely Randomized Trees]

성능평가
 * [Python - Confusion Matrix]
==== 군집(Clustering) ====
 * [DBSCAN]
 * [Word2Vec]
==== 시각화 ====
 * https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html

==== 서비스 ====
 * [모델 저장 및 불러오기]

==== 참고자료 ====
 * [Python-Tip]
 * [수학 기호와 의미]
 * [https://medium.com/@feedbotstar/python-flask-%EB%A1%9C-%EA%B0%84%EB%8B%A8%ED%95%9C-rest-api-%EC%9E%91%EC%84%B1%ED%95%98%EA%B8%B0-60a29a9ebd8c Python Flask 로 간단한 REST API 작성하기]
 * [Pyspark Start]
 * [https://www.r-bloggers.com/big-data-on-rdds-dataframeshive-ql-with-pyspark-and-sparkr-part-3/ Big Data: On RDDs, Dataframes,Hive QL with Pyspark and SparkR-Part 3]
 * [병렬처리 예제]
 * [http://scikit-learn.org/stable/modules/outlier_detection.html Novelty and Outlier Detection]
 * [https://www.slideshare.net/dahlmoon/numpy-20160519 파이썬 Numpy 선형대수 이해하기]
 * [http://bongury.tistory.com/entry/Python-jdbc%EB%A1%9C-DatabaseOracle-%EC%A0%91%EA%B7%BC%ED%95%98%EA%B8%B0 JDBC 사용 예제]
 * [http://scipy-cookbook.readthedocs.io/index.html SciPy Cookbook]
 * 파이썬 라이브러리를 활용한 머신러닝/안드레아스 뮐러 , 세라 가이도 지음/한빛미디어/9788968483394(8968483396)
 * 파이썬 라이브러리를 활용한 데이터 분석/웨스 캑키니 지음/한빛미디어/9788968480478(8968480478)
 * Think Stats/앨런 B. 다우니 지음/한빛미디어/9788968486340
 * 그외의 기타 검색..
 * [attachment:MachineLearning/chap9_ai.ppt 기계학습개론] ([http://game.dongguk.ac.kr/class/2006-1/ai/chap9_ai.ppt 출처])
 * [Python Tip & Tech]
 * [http://www.itworld.co.kr/news/118829?page=0,0#csidx35625038cc5bb89b005f0178ea89059 모든 파이썬 프로그래머를 위한 20가지 실용적인 파이썬 라이브러리]
----
CategoryMachineLearning
----
저도 파이선을 배워볼려고 내가 알고 있는 기술통계부터 시작하려다가 턱 막혀 버렸네요. R에선 한줄이면 되는 것이 파이선에서는...ㅠㅠ
결국 데이터 전처리나 기술통계, 일반 통계 등은 R을 사용하고 머신러닝이나 딥러닝 고급은 파이선을 사용하는 것이 맞지 않을까 싶은 생각이 듭니다. 요즘... -- 김종헌 2021-07-23 21:41:47