_대문 | 방명록 | 최근글 | 홈피소개 | 주인놈
FrontPage › 이상치제거방법

Contents

[-]
1 이상치란?
2 사분위수
3 정규분포
4 앤드류스 그림
5 마하라노비스 거리
6 표준정규분포
7 참고: 6-Sigma의 통계적 의미


1 이상치란? #

이상치(이상점, outlier)란, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말한다. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이렇게 이상한 값들에 의해서 의사결정에 영향을 미칠 수 있으므로 제거하는 것이 좋다.

2 사분위수 #

  • 0사분위수(Q0): 최소값
  • 1사분위수(Q1): 최소값 ~ 25% 번째 값
  • 2사분위수(Q2): 중앙값
  • 3사분위수(Q3): 중앙값 ~ 75% 번째 값
  • 4사분위수(Q4): 최대값

이상치는 보통 다음과 같이 계산된다. 여기서 '사분위범위'란 Q3 - Q1 구간을 말하며, 이 구간에는 50%의 데이터들이 있다.
IF 값 < (제1사분위수 - 1.5*사분위범위) OR (값 > 제3사분위수 + 1.5*사분위범위) THEN
  RETURN 이상치
ELSE
  RETURN 보통치

3 정규분포 #

이상치는 정말 이상한 값이다. 위의 사분위수로 계산되는 것이 꼭 이상치는 아니다. 정규분포를 이용하여 어느 정도의 값이 이상치인지 직접 판단하여 이상치를 제거할 수도 있다. 일반적으로는 (m - 2σ) ~ (m + 2σ) 또는 (m - 1.5σ) ~ (m + 1.5σ) 구간을 벗어나는 값을 이상치로 판단하는 것이 좋다.(σ: 표준편차, m: 평균)
normal_distribution.jpg

  • 6 sigma - 100백만 중에 3.4
  • 5 sigma - 100백만 중에 233
  • 4 sigma - 100백만 중에 6210

4 앤드류스 그림 #

푸리에 급수를 이용한 앤드류스 그림으로 이상치를 찾아낼 수도 있다. [http]앤드류스 그림 문서를 참고하라.

5 마하라노비스 거리 #

마하라노비스 거리라는 것을 이용해서 이상치를 찾을 수도 있다. [http]마하라노비스 거리문서를 참고하라.


6 표준정규분포 #

z = (x - 평균) / 표준편차

z.jpg
출처: http://dkworld.tistory.com/74

표준정규분포표-columpol.xls 출처: http://blog.naver.com/columpol?Redirect=Log&logNo=150019486215

7 참고: 6-Sigma의 통계적 의미 #

  • 1σ: 68.3% - 불량률 : 32%
  • 2σ: 95.4% - 불량률 : 5%
  • 3σ: 99.7% - 불량률 : 0.3%
  • 4σ: 99.99% - 불량률 : 0.01%
  • 5σ: 99.9999% - 불량률 : 0.0001%
  • 6σ: 99.99999999% -불량률 : 0.000000001%

댓글 남기기..
이름: : 오른쪽의 새로고침을 클릭해 주세요. 새로고침
EditText : Print : Mobile : FindPage : DeletePage : LikePages : Powered by MoniWiki : Last modified 2018-04-13 23:12:52

장 말을 잘 하는 사람은 남의 말을 가장 잘 들어 주는 사람이다.