#title 통계와 머신러닝 [[TableOfContents]] 작성중... Python으로 해보려고는 하고 있는데.. 아직까지 R이 훨씬 편한다.. 아.. 하기 싫다.. 다음 그림은 개략적인 데이터 분석의 흐름을 보여준다. 통계와 머신 러닝의 경계가 모호하고 분명히 교집합[* 대표적으로 회귀(Regression)이 그렇다]이 있지만, * 통계(Statistics): 추정(Estimation), 가설 검증(Hypothesis Testing) * 머신 러닝(Machine Learning): 분류(Classification), 군집(Clustering), 회귀(Regression) 과 같이 분류하면 조금은 편할 것 같다. attachment:CategoryMachineLearning/data_analysis.png {{{ import pandas as pd import numpy as np }}} ==== 개념 ==== * [베이지안 세계관] ==== 자료 수집과 준비(Data Collection & Preparation) ==== 데이터 읽기[* 데이터 분석을 위해 데이터를 import해야 한다. 경험적으로는 다음의 3가지가 대부분이다.] * [DB에서 데이터 읽기] * [File에서 데이터 읽기] * [문자열로 DataFrame 만들기] * [JSON 파싱하기] * [Hive에서 데이터 읽기] 데이터 준비[* pandas의 dataframe이나 series에서 데이터를 주무르는 방법들] * [DataFrame을 SQL로 다루기][* R에서의 sqldf와 비슷한 것] * [DataFrame - iris] * [DataFrame - 훈련 세트와 테스트 세트로 나누기] * [Hash Table 흉내내기] * [http://pinkwink.kr/1025?category=580892 한글 자연어 처리를 할 때 필수 모듈 - KoNLPy 소개] ==== 기술통계(Descriptive Statistics) ==== 아.. python으로 해야 하나? 난 SQL과 Excel이 훨씬 편하단 말이야.. 목적 * 데이터의 이해를 위해 시각화하고 요약 * 데이터의 특성 및 분포 파악 데이터 살펴보기 * [Python - Scatter Plot] * [Python - Histogram] * [Python - Arrow] ==== 탐색적 데이터 분석(Exploratory Data Analysis) ==== ==== 추정(Estimation) ==== * [베이지안 - 동전 던지기] ==== 가설 검정(Hypothesis Testing) ==== * [Python - t-test] * [Python - 비율 검정] ==== 회귀(Regression) ==== * [Python - Linear Regression] * [Python - Non-Linear Regression] ==== 분류(Classification) ==== 분류기 * [Python - kNN] [k-Nearest Neighbors] * [Python - Logistic Classification] * [Python - Support Vector Machine] * [Python - Neural network] * [Python - Extremely Randomized Trees] 성능평가 * [Python - Confusion Matrix] ==== 군집(Clustering) ==== * [DBSCAN] * [Word2Vec] ==== 시각화 ==== * https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html ==== 서비스 ==== * [모델 저장 및 불러오기] ==== 참고자료 ==== * [Python-Tip] * [수학 기호와 의미] * [https://medium.com/@feedbotstar/python-flask-%EB%A1%9C-%EA%B0%84%EB%8B%A8%ED%95%9C-rest-api-%EC%9E%91%EC%84%B1%ED%95%98%EA%B8%B0-60a29a9ebd8c Python Flask 로 간단한 REST API 작성하기] * [Pyspark Start] * [https://www.r-bloggers.com/big-data-on-rdds-dataframeshive-ql-with-pyspark-and-sparkr-part-3/ Big Data: On RDDs, Dataframes,Hive QL with Pyspark and SparkR-Part 3] * [병렬처리 예제] * [http://scikit-learn.org/stable/modules/outlier_detection.html Novelty and Outlier Detection] * [https://www.slideshare.net/dahlmoon/numpy-20160519 파이썬 Numpy 선형대수 이해하기] * [http://bongury.tistory.com/entry/Python-jdbc%EB%A1%9C-DatabaseOracle-%EC%A0%91%EA%B7%BC%ED%95%98%EA%B8%B0 JDBC 사용 예제] * [http://scipy-cookbook.readthedocs.io/index.html SciPy Cookbook] * 파이썬 라이브러리를 활용한 머신러닝/안드레아스 뮐러 , 세라 가이도 지음/한빛미디어/9788968483394(8968483396) * 파이썬 라이브러리를 활용한 데이터 분석/웨스 캑키니 지음/한빛미디어/9788968480478(8968480478) * Think Stats/앨런 B. 다우니 지음/한빛미디어/9788968486340 * 그외의 기타 검색.. * [attachment:MachineLearning/chap9_ai.ppt 기계학습개론] ([http://game.dongguk.ac.kr/class/2006-1/ai/chap9_ai.ppt 출처]) * [Python Tip & Tech] * [http://www.itworld.co.kr/news/118829?page=0,0#csidx35625038cc5bb89b005f0178ea89059 모든 파이썬 프로그래머를 위한 20가지 실용적인 파이썬 라이브러리] ---- CategoryMachineLearning ---- 저도 파이선을 배워볼려고 내가 알고 있는 기술통계부터 시작하려다가 턱 막혀 버렸네요. R에선 한줄이면 되는 것이 파이선에서는...ㅠㅠ 결국 데이터 전처리나 기술통계, 일반 통계 등은 R을 사용하고 머신러닝이나 딥러닝 고급은 파이선을 사용하는 것이 맞지 않을까 싶은 생각이 듭니다. 요즘... -- 김종헌 2021-07-23 21:41:47