_대문 | 방명록 | 최근글 | 홈피소개 | 주인놈 |
FrontPage › 이상치제거방법
|
|
[edit]
1 이상치란? #이상치(이상점, outlier)란, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말한다. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이렇게 이상한 값들에 의해서 의사결정에 영향을 미칠 수 있으므로 제거하는 것이 좋다.
[edit]
2 사분위수 #
IF 값 < (제1사분위수 - 1.5*사분위범위) OR (값 > 제3사분위수 + 1.5*사분위범위) THEN RETURN 이상치 ELSE RETURN 보통치 [edit]
3 정규분포 #이상치는 정말 이상한 값이다. 위의 사분위수로 계산되는 것이 꼭 이상치는 아니다. 정규분포를 이용하여 어느 정도의 값이 이상치인지 직접 판단하여 이상치를 제거할 수도 있다. 일반적으로는 (m - 2σ) ~ (m + 2σ) 또는 (m - 1.5σ) ~ (m + 1.5σ) 구간을 벗어나는 값을 이상치로 판단하는 것이 좋다.(σ: 표준편차, m: 평균)
![]()
[edit]
6 표준정규분포 #z = (x - 평균) / 표준편차
![]() 출처: http://dkworld.tistory.com/74 ![]()
|
장 말을 잘 하는 사람은 남의 말을 가장 잘 들어 주는 사람이다. |