#title SAS정리 [[TableOfContents]] ==== 정규성 검정:univariate ==== {{{ data a1; input hei @@; cards; 164 161 158 170 161 159 158 169 152 160 ; proc univariate normal; var hei; run; }}} 결과 {{{ UNIVARIATE 프로시저 변수: hei 적률 N 10 가중합 10 평균 161.2 관측치 합 1612 표준편차 5.34997404 분산 28.6222222 왜도 0.29147701 첨도 0.23211453 제곱합 260112 수정 제곱합 257.6 변동계수 3.31884246 평균의 표준오차 1.69181034 기본 통계 측도 위치측도 변이측도 평균 161.2000 표준편차 5.34997 중간값 160.5000 분산 28.62222 최빈값 158.0000 범위 18.00000 사분위 범위 6.00000 NOTE: The mode displayed is the smallest of 2 modes with a count of 2. 위치모수 검정: Mu0=0 검정 --통계량--- -------p-값------- 스튜던트의 t t 95.28255 Pr > |t| <.0001 부호 M 5 Pr >= |M| 0.0020 부호 순위 S 27.5 Pr >= |S| 0.0020 정규성 검정 검정 ----통계량---- -------p-값------- Shapiro-Wilk W 0.93473 Pr < W 0.4960 Kolmogorov-Smirnov D 0.21491 Pr > D >0.1500 Cramer-von Mises W-Sq 0.066153 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.385437 Pr > A-Sq >0.2500 분위수(정의 5) 분위수 추정값 100% 최대값 170.0 99% 170.0 95% 170.0 90% 169.5 75% Q3 164.0 50% 중위수 160.5 25% Q1 158.0 10% 155.0 5% 152.0 1% 152.0 0% 최소값 152.0 SAS 시스템 22:09 Thursday, March 22, 2001 13 UNIVARIATE 프로시저 변수: hei 극 관측치 --작은값부터- ---큰값부터-- 값 관측치 값 관측치 152 9 161 2 158 7 161 5 158 3 164 1 159 6 169 8 160 10 170 4 }}} * "Pr < W" 값이 0.4960로 0.05보다 작으므로 정규분포가 따른다는 가설을 기각한다. ==== x^^2^^-검정: 명목 변인들간의 상호 관련성 여부를 검정 ==== * 데이터 * 귀하의 성별은? 1.남 2.여 * 귀하가 즐기는 취미 생활은? 1.스포츠 2.음악감상 3.독서 4.여행 * 독립성 검정(상호 관련성이 없음을 토대로..) ==== x^^2^^-검정:두 그룹간의 독립성 검정 ==== {{{ data a1; input sex $ hei @@; cards; F 156 F 170 F 157 F 167 F 169 F 147 M 170 M 175 M 180 M 173 M 157 M 179 ; proc freq; tables sex*hei/chisq expected; run; }}} 결과 {{{ FREQ 프로시저 sex * hei 교차표 sex hei 빈도| 기대빈도| 백분율| 행 백분율| 칼럼 백분율| 147| 156| 157| 167| 169| 170| 173| 175| 179| 180| 총합 -----------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+ F | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 6 | 0.5 | 0.5 | 1 | 0.5 | 0.5 | 1 | 0.5 | 0.5 | 0.5 | 0.5 | | 8.33 | 8.33 | 8.33 | 8.33 | 8.33 | 8.33 | 0.00 | 0.00 | 0.00 | 0.00 | 50.00 | 16.67 | 16.67 | 16.67 | 16.67 | 16.67 | 16.67 | 0.00 | 0.00 | 0.00 | 0.00 | | 100.00 | 100.00 | 50.00 | 100.00 | 100.00 | 50.00 | 0.00 | 0.00 | 0.00 | 0.00 | -----------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+ M | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 6 | 0.5 | 0.5 | 1 | 0.5 | 0.5 | 1 | 0.5 | 0.5 | 0.5 | 0.5 | | 0.00 | 0.00 | 8.33 | 0.00 | 0.00 | 8.33 | 8.33 | 8.33 | 8.33 | 8.33 | 50.00 | 0.00 | 0.00 | 16.67 | 0.00 | 0.00 | 16.67 | 16.67 | 16.67 | 16.67 | 16.67 | | 0.00 | 0.00 | 50.00 | 0.00 | 0.00 | 50.00 | 100.00 | 100.00 | 100.00 | 100.00 | -----------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+ 총합 1 1 2 1 1 2 1 1 1 1 12 8.33 8.33 16.67 8.33 8.33 16.67 8.33 8.33 8.33 8.33 100.00 sex * hei 테이블에 대한 통계량 통계량 자유도 값 확률값 ---------------------------------------------------------- 카이제곱 9 8.0000 0.5341 우도비 카이제곱 9 11.0904 0.2696 Mantel-Haenszel 카이제곱 1 3.6709 0.0554 파이 계수 0.8165 분할 계수 0.6325 크래머의 V 0.8165 경고: 셀의 100%가 5보다 적은 기대빈도를 가지고 있습니다. 카이제곱 검정은 올바르지 않을 수 있습니다. 표본 크기 = 12 }}} * x^^2^^ 값이 8.0000보다 클 확률은 0.5341이다. * p값이 0.05보다 크므로 "남녀별 키는 차이가 없다"라는 가설을 기각하지 못한다. ==== x^^2^^-검정:가중치를 고려한 독립성 검정 ==== {{{ data a1; input sex $ hobby count @@; cards; F 1 21 F 2 41 F 3 29 F 4 25 F 5 6 F 6 4 M 1 16 M 2 12 M 3 24 M 4 12 M 5 3 M 6 4 ; proc freq; tables sex*hobby/chisq; weight count; run; }}} 결과 {{{ FREQ 프로시저 sex * hobby 교차표 sex hobby 빈도| 백분율| 행 백분율| 칼럼 백분율| 1| 2| 3| 4| 5| 6| 총합 -----------+--------+--------+--------+--------+--------+--------+ F | 21 | 41 | 29 | 25 | 6 | 4 | 126 | 10.66 | 20.81 | 14.72 | 12.69 | 3.05 | 2.03 | 63.96 | 16.67 | 32.54 | 23.02 | 19.84 | 4.76 | 3.17 | | 56.76 | 77.36 | 54.72 | 67.57 | 66.67 | 50.00 | -----------+--------+--------+--------+--------+--------+--------+ M | 16 | 12 | 24 | 12 | 3 | 4 | 71 | 8.12 | 6.09 | 12.18 | 6.09 | 1.52 | 2.03 | 36.04 | 22.54 | 16.90 | 33.80 | 16.90 | 4.23 | 5.63 | | 43.24 | 22.64 | 45.28 | 32.43 | 33.33 | 50.00 | -----------+--------+--------+--------+--------+--------+--------+ 총합 37 53 53 37 9 8 197 18.78 26.90 26.90 18.78 4.57 4.06 100.00 sex * hobby 테이블에 대한 통계량 통계량 자유도 값 확률값 ---------------------------------------------------------- 카이제곱 5 7.8385 0.1654 우도비 카이제곱 5 8.0481 0.1536 Mantel-Haenszel 카이제곱 1 0.1406 0.7077 파이 계수 0.1995 분할 계수 0.1956 크래머의 V 0.1995 표본 크기 = 197 }}} * p값이 0.05보다 크므로 "남녀의 취미생활은 차이가 없다"라는 가설을 기각하지 못한다. ==== x^^2^^-검정:주의사항들 ==== * 각 CELL의 빈도가 너무 적으면 x^^2^^값의 의미가 없는 경우가 많다. 이때는 빈도가 적은 항목을 Missing처리하거나 항목을 합한 후 처리한다. * 여러가지 요인으로 분석하다보면 오류를 범할 수 있다. 연구자의 연구 목적을 제대로 파악해야 한다. (예: 결혼여부와 취미생활은 독립으로 결과가 나왔으나 남녀 각각에 대한 결혼여부와 취미생활을 분석해보면 관련이 있다는 결론을 얻을 수 있다. ) ==== 평균 구간 추정: 정규분포를 가정함 ==== 다음은 키에 대한 데이터의 표본이다. 95% 신뢰구간에서의 평균구간을 추정하라 {{{ data a1; input hei @@; cards; 164 161 158 170 161 159 158 169 152 160 proc means mean std t prt lcl ucl; var hei; run; }}} 결과 {{{ The MEANS Procedure 분석 변수 : hei 평균에 대한95% 평균에 대한95% 평균값 표준편차 t 값 Pr > |t| 신뢰하한 신뢰상한 --------------------------------------------------------------------------------------- 161.2000000 5.3499740 95.28 <.0001 157.3728591 165.0271409 --------------------------------------------------------------------------------------- }}} * 95% 신뢰구간에서의 키는 157 ~ 165 이다. 즉, 100명 중에 95명의 키는 이 범위 안에 들어간다. t-Test의 결과는.. {{{ PROC TTEST DATA=a1 H0=10 ; VAR hei ; RUN ; }}} 결과 {{{ The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Minimum Maximum hei 10 157.37 161.2 165.03 3.6799 5.35 9.767 1.6918 152 170 T-Tests Variable DF t Value Pr > |t| hei 9 89.37 <.0001 }}} * 95% 신뢰구간의 키는 157.37 ~ 165.03 ==== t-Test : 평균의 차이가 있는가? ==== {{{ DATA car; INPUT car@@ ; CARDS ; 21.0 22.7 25.8 20.6 18.5 21.4 19.3 17.6 22.7 20.6 17.9 18.3 24.7 23.3 24.3 21.5 20.0 19.8 22.9 19.9 ; RUN ; PROC TTEST DATA=car H0=20 ; VAR car ; RUN ; /* H0=20 옵션 : 귀무가설 하의 검정기준 모평균의 값 */ }}} 결과 {{{ The TTEST Procedure Variable: car N Mean Std Dev Std Err Minimum Maximum 20 21.1400 2.3383 0.5229 17.6000 25.8000 Mean 95% CL Mean Std Dev 95% CL Std Dev 21.1400 20.0456 22.2344 2.3383 1.7783 3.4153 DF t Value Pr > |t| 19 2.18 0.0420 }}} * 95% 신뢰구간에서의 * 평균구간: 20.0456 ~ 22.2344 * 표준편차: 1.7783 ~ 3.4153 * 평균의 표준오차: 0.5229 * 0.0420 < 0.05 이므로, 귀무가설을 채택