#title 평균 [[TableOfContents]] 작성중.. 가중편균 변동계수 체비셰프의 정리 표준화(Z값) ==== 개요 ==== 아마도 현업에서 가장 많이 쓴는 통계는 합계(sum)[* 이것도 통계라도 하는지는 모르겠다], 개수(count), 평균(mean)이 아닌가 싶다. 평균은 "합계/개수" 이므로 합계와 개수만 알면 계산해서 알 수 있다. 일반적인 사람들이 생각하는 평균은 여기까지인 것 같다. 하지만 평균은 매우 많은 의미를 가지고 있다. 평균의 의미는 다음과 같이 여러 가지로 표현된다. * 데이터 집합에서의 대표값 * 기하학적으로 봤을 때는 무게 중심 데이터 집합에서의 대표값[* 해당 집합의 각각의 원소를 보는 것은 귀찮으니 퉁쳐서 보자는 이야기다]은 그 집단을 하나의 숫자로 표현 할 수 있다는 것을 말한다. 물론 대표값은 여러 가지가 있지만 평균은 우열을 가리는데 사용된다. 우선 다음의 표를 보자. ||게임|| 고객수 || 평균이용시간(분) || || A || 1,000 || 30 || || B || 1,000 || 35 || {{{* 단, 고객은 20~25세, 대학생 대상}}} 집단A의 평균 이용시간은 30분, 집단B는 35분이다. 즉, 게임B가 더 우수한 게임이라고 할 수 있다. 기하학적으로 봤을 때는 무게중심이다. 그러므로 평균이 모든 숫자를 정렬했을 때의 정중앙에 온다고 할 수는 없다. 일반적으로 통계의 실수를 이야기 할 경우 평균연봉, 평균점수의 예를 든다. 평균점수가 높다고 해당 집단이 모두 공부를 잘한다고 할 수는 없는 노릇이다. 어쨌든 기하학적으로 봤을 때는 무게중심이다. attachment:mean_geo.jpg 이해를 돕기 위해 문제를 풀어보자. 다음의 그림에서 이 숫자들의 평균은 몇인가? 5.5다. attachment:mean_geo02.jpg 그렇다면 여기서 3과 8을 빼면 평균은? attachment:mean_geo03.jpg 바로 대답하지 못했다면 아직 이해를 덜 한것이므로 곰곰히 더 생각해보라. ==== 평균은 표준편차와 같이 봐야 한다 ==== ==== 평균과 표준편차를 알면 자료의 분포도 예상 할 수 있다 ==== ==== R과 정규분포 ==== x=seq(-3, 3, length=200) y=dnorm(x, mean=0, sd=1) plot(x, y, type="l", col="blue") sum(x[ x <= 1.0]) # -3 ~ -1까지의 합한(적분한) 값 x=seq(-3,-1.0,length=100) y=dnorm(x,mean=0,sd=1) polygon(c(-3,x,-1.0),c(0,y,0),col="gray") attachment:norm.jpg