#title 주의사항 [[TableOfContents]] 통계 & 머신러닝 할 때의 선배들의 그리고 내 경험의 기록 ==== 데이터 ==== * 데이터를 모으는 일은 비용이 든다. (저렴하지 않다) * 대표성 있는 데이터(샘플)가 중요하다. (데이터가 많아도 대표성이 없으면 안 된다) * 알고리즘과 데이터 모두 중요하다. (알고리즘 만으로는 한계가 있다) * 충분한 데이터가 주어지면 문제 해결할 가능성이 높아진다. * 데이터 품질이 결과에 큰 영향을 끼친다. * 단순이 양이 많은 데이터보다는 특징을 잘 표현할 수 있는 다양하고 많은 데이터가 중요 ==== 모델 ==== * 오버피팅 문제(개인적인 경험, 게시판의 몇 개의 글들) -> 항상 경계해야 한다. * 테스트 셋에 대한 컨닝 금지 * 가정에 대한 검사가 필요하다. 네가 당연하게 생각한 그게 아닐 수도 있다. * 가능하다면 이해 할 수 있는 모델이 좋다. * 시각화 가능한 모델이 좋다. * 게임 데이터는 매니폴드 가정 (게임 데이터는 고차원에 맵핑되어 있다) * 게임의 제약 사항들이 그렇다. * 퀘스트 결과 데이터와 채팅 데이터는 자유도가 다르다. (채팅 데이터는 자유도가 높다) ==== 인식 ==== * 머신러닝은 도깨비 방망이가 아니다. * 이름만 그럴싸하고 결과는 없거나 별로인 것으로 인식되고 있다. -> 최근(2019년 2월)들어 이런 소리를 많이 들었다. * 파이썬, R, 딥러닝.. 이런 것은 중요치 않다. 목적이 무엇인지 명확히 하고, 그 목적을 달성하는 것이 중요 ==== 기타 ==== * feature들의 스케일이 많이 다르면 알고리즘들이 잘 안 먹힌다. (min-max 스케일링이 많이 쓰인다) * confusion matrix의 정확도만 봐서는 안 된다.