#title 평균
[[TableOfContents]]

작성중..
가중편균
변동계수
체비셰프의 정리
표준화(Z값)
==== 개요 ====
아마도 현업에서 가장 많이 쓴는 통계는 합계(sum)[* 이것도 통계라도 하는지는 모르겠다], 개수(count), 평균(mean)이 아닌가 싶다. 평균은 "합계/개수" 이므로 합계와 개수만 알면 계산해서 알 수 있다. 일반적인 사람들이 생각하는 평균은 여기까지인 것 같다. 하지만 평균은 매우 많은 의미를 가지고 있다. 평균의 의미는 다음과 같이 여러 가지로 표현된다. 

 * 데이터 집합에서의 대표값
 * 기하학적으로 봤을 때는 무게 중심

데이터 집합에서의 대표값[* 해당 집합의 각각의 원소를 보는 것은 귀찮으니 퉁쳐서 보자는 이야기다]은 그 집단을 하나의 숫자로 표현 할 수 있다는 것을 말한다. 물론 대표값은 여러 가지가 있지만 평균은 우열을 가리는데 사용된다. 우선 다음의 표를 보자. 

||게임|| 고객수 || 평균이용시간(분) ||
|| A || 1,000 || 30 ||
|| B || 1,000 || 35 ||
{{{* 단, 고객은 20~25세, 대학생 대상}}}

집단A의 평균 이용시간은 30분, 집단B는 35분이다. 즉, 게임B가 더 우수한 게임이라고 할 수 있다. 

기하학적으로 봤을 때는 무게중심이다. 그러므로 평균이 모든 숫자를 정렬했을 때의 정중앙에 온다고 할 수는 없다. 일반적으로 통계의 실수를 이야기 할 경우 평균연봉, 평균점수의 예를 든다. 평균점수가 높다고 해당 집단이 모두 공부를 잘한다고 할 수는 없는 노릇이다. 어쨌든 기하학적으로 봤을 때는 무게중심이다. 

attachment:mean_geo.jpg

이해를 돕기 위해 문제를 풀어보자. 다음의 그림에서 이 숫자들의 평균은 몇인가? 5.5다. 

attachment:mean_geo02.jpg

그렇다면 여기서 3과 8을 빼면 평균은? 

attachment:mean_geo03.jpg

바로 대답하지 못했다면 아직 이해를 덜 한것이므로 곰곰히 더 생각해보라. 

==== 평균은 표준편차와 같이 봐야 한다 ====

==== 평균과 표준편차를 알면 자료의 분포도 예상 할 수 있다 ====


==== R과 정규분포 ====
x=seq(-3, 3, length=200)
y=dnorm(x, mean=0, sd=1)
plot(x, y, type="l", col="blue")

sum(x[ x <= 1.0]) # -3 ~ -1까지의 합한(적분한) 값
x=seq(-3,-1.0,length=100)
y=dnorm(x,mean=0,sd=1)
polygon(c(-3,x,-1.0),c(0,y,0),col="gray")

attachment:norm.jpg