#title 기술통계학I - 표와 그래프적 방법
[[TableOfContents]]
[http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788971898376&orderClick=LAH&Kc= EXCEL 활용 현대 통계학, 강금식, 정우석, 박영사]를 정리했다.
==== 변수의 형태 ====
 * 자료(data)란, 관측치(observation)들의 집합.
 * 변수(variable)란, 시간에 따라 변하는 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. (= 변량)
 * 질적 변수와 양적 변수
  * 질적 변수
   * 특성상 수치로 나타내거나 또는 수치로 나타낼 수 없는 변수
   * 성별, 종교, 직업 등
   * 질적 변수에 대한 측정자료를 질적 자료, 정성적 자료 또는 범주적 자료(categorical data)라고 함
   * 명목, 서열 자료가 포함됨.
   * 언제나 이산적 자료
  * 양적 변수
   * 특성상 수치로 나타낼 수 있는 변수
   * 예금잔액, 자녀수, 체중 등
   * 양적 변수에 대한 측정자료를 양적 자료 또는 정량적 자료라고 함
   * 양적 변수의 분류
    * 연속적 변수(continuous variable)
    * 이산적 변수(discrete variable) -> 값 사이에 Gap을 갖게 됨
   * 구간자료, 비율자료가 포함됨
 * 단변수와 다변수
   * 관측 대상이 되는 각 기본단위가 하나의 변수를 갖는 자료. 변수가 하나이기 때문에 자료의 대표치, 기본단위들의 동질성, 이상치(oulier)의 존재여부 등에 관한 특성을 요약하는 통계분석 방법이 사용됨.
   * 관측 대상이 되는 각 기본단위가 여러개의 변수를 갖는 자료. 변수가 두 개 이상이므로 단변수 자료에서 얻는 특성 이외에 변수간의 관계, 변수간의 밀접성, 한 변수로부터 다른 변수의 값 예측 등의 밝히는 통계분석방법이 사용됨.

예제(속성들이 좀 꾸졌지만.. 그려려니..)
||종업원||인종||성||직위||근무연수||연봉||
||홍길동||황||남||과장||5||6||
||장길산||황||남||대리||3||3||
||개소문||황||남||부장||7||5||
||스탈린||백||남||대리||2||1||
||마돈나||백||여||과장||6||3||

 * 기본단위는? 홍길동, 장길산, 개소문, 스탈린, 마돈나
 * 변수는? 종업원, 인종, 성, 직위, 근무연수, 연봉
 * 질적? 양적?
  * 질적변수: 인종, 성, 직위
  * 양적변수: 근무연수, 연봉 (모두 연속적)
 * 직위의 모집단? 부장, 과장, 대리
 * 자료의 수는? 25
 * 다변량 자료

==== 측정척도의 형태 ====
4가지 형태
 * 명목척도(nominal scale)
  * 값은 범주(category) 또는 레이블(label)
  * 성별, 이메인인증여부, 직위 등
  * '=' 또는 '<>'만 가지고 비교 가능
 * 서열척도(ordinal scale)
  * 값은 측정 대상간의 높/낮, 큼/작음, 선/후 등의 서열 순서를 가짐
  * 학점, 단위(KB, MB, TB, PB..) 등
  * '=', '<>', '>=', '<=' 연산 가능
 * 구간척도(interval scale)
  * 값들이 일정한 차이만큼 일정한 크기를 가진다.(명목, 서열 자료의 특성을 가짐)
  * 온도, 지능지수, 학년 등
  * "주의" 자료들간의 차이(간격)가 의미 있을 뿐이지 차이의 비율은 의미가 없다. (온도가 서울 15도, 부산 30도 라고 해도 부산이 2배더 덥다고 할 수 없다) -> 상대적인 위치만 나타낼 뿐
  * '=', '<>', '>=', '<=', '+', '-' 연산 가능
 * 비율척도(ratio scale)
  * 명목, 서열, 구간 자료의 모든 특성을 가질 뿐만 아니라 절대적 위치를 나타내는 원점(0)을 가지기 때문에 두 측정치 사이의 비율을 계산할 수 있다. 
  * A의 월급이 100원이고, B의 월급이 200원이면 B의 월급이 A보다 2배더 많다고 이야기 할 수 있다.
  * * '=', '<>', '>=', '<=', '+', '-', '/', '*' 연산 가능
attachment:mesurement_scale.jpg

시계열자료와 횡단면자료
 * 시계열자료(time series data), 시간의 순서대로 기록
 * 횡단면자료(cross sectional data), 특정 시점에 측정하여 기록

==== 통계표와 그래프 ====
도수분포표
 * 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수를 나타내는 통계표
 * 도수(freqeuncy), 각 계급에 해당되는 값의 개수
 * 상대도수(relative freqeuncy), 각 계급에 속한 도수가 총도수에서 차지하는 비율

학년데이터
||학년||도수||상대도수||
||1학년||1||0.1||
||2학년||4||0.4||
||3학년||3||0.3||
||4학년||2||0.2||
||총도수||10||1.0||

==== 도수분포표(히스토그램) ====
어떤 데이터가 전체 중에 차지하는 위치를 알아내기 위해서는 전체 경향을 파악하는 일이 매우 중요하다. 전체 경향을 파악하는데는 도수분포표가 매우 유용하다. 도수분포표는 다음과 같은 방법으로 만들 수 있다. 

 1. 데이터의 최대, 최소값을 구한다.
 1. 자료의 크기에 따라 적당한 계급의 수를 정한다.(이상치는 제거한다.([이상치 제거 방법]))
 1. 중복되지 않게 계급의 크기를 정한다. 
 1. 각 계급에 속하는 도수(데이터 수)를 구한다. 
 1. 계급은 연속으로 표시한다. 
 1. 상대도수를 구한다. (상대도수 = 해당 계급의 도수 / 전체 도수)

참고:
엑셀2007에서 막대 그래프와 꺽은선 그래프를 동시에 표현하고자 한다면, 우선 2개의 계열을 모두 막대 그래프로 표시한 후, 마우스 오른 클릭하여 다음 그림과 같이 {{{ [계열 차트 종류 변경] }}}을 클릭하여 꺽은선 그래프로 변경한다. 
attachment:excel01.jpg

다음의 변경된 그림이다. 
attachment:excel02.jpg
==== 스튜아지스 방법 ====
스튜아지스의 방법은 통계학 책의 거의 처음 부분에 나오는 내용이다. 스튜아지스는 계급의 수[* 몇 개로 쪼갤 것인가]를 결정하는 방법으로 다음과 같은 공식을 만들었다. 히스토그램을 만들때 유용하다.

 * 계급의 수 k {{{=}}} 1 + (log,,10,,N / log,,10,,2) (N; 자료의 수) = {{{1 + (LOG10(N) / LOG10(2))}}}
 * 계급의 범위 R = (Max값 - Min값) / k

분류하는 방법은 위의 공식을 이용하여 다음과 같은 순서로 구하면 된다. 

 1. 데이터의 총 개수, Max값, Min값을 구한다. 이 때 Max값, Min값을 구할 때는 이상치를 제거하는 것이 좋다. 
 2. 스튜아지스의 방법을 이용하여 계급의 수(k)를 구한다. 
 3. 윗 단계에서 구해진 계급의 수 k를 이용하여 값의 범위를 구한다.
 4. 구해진 범위로 데이터를 구분한다.