#title 이상치 제거 방법 [[TableOfContents]] ==== 이상치란? ==== 이상치(이상점, outlier)란, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말한다. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이렇게 이상한 값들에 의해서 의사결정에 영향을 미칠 수 있으므로 제거하는 것이 좋다. ==== 사분위수 ==== * 0사분위수(Q0): 최소값 * 1사분위수(Q1): 최소값 ~ 25% 번째 값 * 2사분위수(Q2): 중앙값 * 3사분위수(Q3): 중앙값 ~ 75% 번째 값 * 4사분위수(Q4): 최대값 이상치는 보통 다음과 같이 계산된다. 여기서 '사분위범위'란 Q3 - Q1 구간을 말하며, 이 구간에는 50%의 데이터들이 있다. {{{ IF 값 < (제1사분위수 - 1.5*사분위범위) OR (값 > 제3사분위수 + 1.5*사분위범위) THEN RETURN 이상치 ELSE RETURN 보통치 }}} ==== 정규분포 ==== 이상치는 정말 이상한 값이다. 위의 사분위수로 계산되는 것이 꼭 이상치는 아니다. 정규분포를 이용하여 어느 정도의 값이 이상치인지 직접 판단하여 이상치를 제거할 수도 있다. 일반적으로는 (m - 2σ) ~ (m + 2σ) 또는 (m - 1.5σ) ~ (m + 1.5σ) 구간을 벗어나는 값을 이상치로 판단하는 것이 좋다.(σ: 표준편차, m: 평균) attachment:normal_distribution.jpg * 6 sigma - 100백만 중에 3.4 * 5 sigma - 100백만 중에 233 * 4 sigma - 100백만 중에 6210 ==== 앤드류스 그림 ==== 푸리에 급수를 이용한 앤드류스 그림으로 이상치를 찾아낼 수도 있다. [http://databaser.net/moniwiki/wiki.php/%EA%B3%B5%EB%B6%84%EC%82%B0%EA%B3%BC%EC%83%81%EA%B4%80%EA%B3%84%EC%88%98?action=show#s-7 앤드류스 그림] 문서를 참고하라. ==== 마하라노비스 거리 ==== 마하라노비스 거리라는 것을 이용해서 이상치를 찾을 수도 있다. [http://databaser.net/moniwiki/wiki.php/%ED%96%89%EB%A0%AC%EC%9D%98%EB%B6%84%ED%95%B4?action=show§ion=5 마하라노비스 거리]문서를 참고하라. ==== 표준정규분포 ==== z = (x - 평균) / 표준편차 attachment:z.jpg {{{출처: http://dkworld.tistory.com/74}}} attachment:표준정규분포표-columpol.xls {{{출처: http://blog.naver.com/columpol?Redirect=Log&logNo=150019486215}}} ==== 참고: 6-Sigma의 통계적 의미 ==== * 1σ: 68.3% - 불량률 : 32% * 2σ: 95.4% - 불량률 : 5% * 3σ: 99.7% - 불량률 : 0.3% * 4σ: 99.99% - 불량률 : 0.01% * 5σ: 99.9999% - 불량률 : 0.0001% * 6σ: 99.99999999% -불량률 : 0.000000001%