#title 기술통계학I - 표와 그래프적 방법 [[TableOfContents]] [http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788971898376&orderClick=LAH&Kc= EXCEL 활용 현대 통계학, 강금식, 정우석, 박영사]를 정리했다. ==== 변수의 형태 ==== * 자료(data)란, 관측치(observation)들의 집합. * 변수(variable)란, 시간에 따라 변하는 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. (= 변량) * 질적 변수와 양적 변수 * 질적 변수 * 특성상 수치로 나타내거나 또는 수치로 나타낼 수 없는 변수 * 성별, 종교, 직업 등 * 질적 변수에 대한 측정자료를 질적 자료, 정성적 자료 또는 범주적 자료(categorical data)라고 함 * 명목, 서열 자료가 포함됨. * 언제나 이산적 자료 * 양적 변수 * 특성상 수치로 나타낼 수 있는 변수 * 예금잔액, 자녀수, 체중 등 * 양적 변수에 대한 측정자료를 양적 자료 또는 정량적 자료라고 함 * 양적 변수의 분류 * 연속적 변수(continuous variable) * 이산적 변수(discrete variable) -> 값 사이에 Gap을 갖게 됨 * 구간자료, 비율자료가 포함됨 * 단변수와 다변수 * 관측 대상이 되는 각 기본단위가 하나의 변수를 갖는 자료. 변수가 하나이기 때문에 자료의 대표치, 기본단위들의 동질성, 이상치(oulier)의 존재여부 등에 관한 특성을 요약하는 통계분석 방법이 사용됨. * 관측 대상이 되는 각 기본단위가 여러개의 변수를 갖는 자료. 변수가 두 개 이상이므로 단변수 자료에서 얻는 특성 이외에 변수간의 관계, 변수간의 밀접성, 한 변수로부터 다른 변수의 값 예측 등의 밝히는 통계분석방법이 사용됨. 예제(속성들이 좀 꾸졌지만.. 그려려니..) ||종업원||인종||성||직위||근무연수||연봉|| ||홍길동||황||남||과장||5||6|| ||장길산||황||남||대리||3||3|| ||개소문||황||남||부장||7||5|| ||스탈린||백||남||대리||2||1|| ||마돈나||백||여||과장||6||3|| * 기본단위는? 홍길동, 장길산, 개소문, 스탈린, 마돈나 * 변수는? 종업원, 인종, 성, 직위, 근무연수, 연봉 * 질적? 양적? * 질적변수: 인종, 성, 직위 * 양적변수: 근무연수, 연봉 (모두 연속적) * 직위의 모집단? 부장, 과장, 대리 * 자료의 수는? 25 * 다변량 자료 ==== 측정척도의 형태 ==== 4가지 형태 * 명목척도(nominal scale) * 값은 범주(category) 또는 레이블(label) * 성별, 이메인인증여부, 직위 등 * '=' 또는 '<>'만 가지고 비교 가능 * 서열척도(ordinal scale) * 값은 측정 대상간의 높/낮, 큼/작음, 선/후 등의 서열 순서를 가짐 * 학점, 단위(KB, MB, TB, PB..) 등 * '=', '<>', '>=', '<=' 연산 가능 * 구간척도(interval scale) * 값들이 일정한 차이만큼 일정한 크기를 가진다.(명목, 서열 자료의 특성을 가짐) * 온도, 지능지수, 학년 등 * "주의" 자료들간의 차이(간격)가 의미 있을 뿐이지 차이의 비율은 의미가 없다. (온도가 서울 15도, 부산 30도 라고 해도 부산이 2배더 덥다고 할 수 없다) -> 상대적인 위치만 나타낼 뿐 * '=', '<>', '>=', '<=', '+', '-' 연산 가능 * 비율척도(ratio scale) * 명목, 서열, 구간 자료의 모든 특성을 가질 뿐만 아니라 절대적 위치를 나타내는 원점(0)을 가지기 때문에 두 측정치 사이의 비율을 계산할 수 있다. * A의 월급이 100원이고, B의 월급이 200원이면 B의 월급이 A보다 2배더 많다고 이야기 할 수 있다. * * '=', '<>', '>=', '<=', '+', '-', '/', '*' 연산 가능 attachment:mesurement_scale.jpg 시계열자료와 횡단면자료 * 시계열자료(time series data), 시간의 순서대로 기록 * 횡단면자료(cross sectional data), 특정 시점에 측정하여 기록 ==== 통계표와 그래프 ==== 도수분포표 * 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수를 나타내는 통계표 * 도수(freqeuncy), 각 계급에 해당되는 값의 개수 * 상대도수(relative freqeuncy), 각 계급에 속한 도수가 총도수에서 차지하는 비율 학년데이터 ||학년||도수||상대도수|| ||1학년||1||0.1|| ||2학년||4||0.4|| ||3학년||3||0.3|| ||4학년||2||0.2|| ||총도수||10||1.0|| ==== 도수분포표(히스토그램) ==== 어떤 데이터가 전체 중에 차지하는 위치를 알아내기 위해서는 전체 경향을 파악하는 일이 매우 중요하다. 전체 경향을 파악하는데는 도수분포표가 매우 유용하다. 도수분포표는 다음과 같은 방법으로 만들 수 있다. 1. 데이터의 최대, 최소값을 구한다. 1. 자료의 크기에 따라 적당한 계급의 수를 정한다.(이상치는 제거한다.([이상치 제거 방법])) 1. 중복되지 않게 계급의 크기를 정한다. 1. 각 계급에 속하는 도수(데이터 수)를 구한다. 1. 계급은 연속으로 표시한다. 1. 상대도수를 구한다. (상대도수 = 해당 계급의 도수 / 전체 도수) 참고: 엑셀2007에서 막대 그래프와 꺽은선 그래프를 동시에 표현하고자 한다면, 우선 2개의 계열을 모두 막대 그래프로 표시한 후, 마우스 오른 클릭하여 다음 그림과 같이 {{{ [계열 차트 종류 변경] }}}을 클릭하여 꺽은선 그래프로 변경한다. attachment:excel01.jpg 다음의 변경된 그림이다. attachment:excel02.jpg ==== 스튜아지스 방법 ==== 스튜아지스의 방법은 통계학 책의 거의 처음 부분에 나오는 내용이다. 스튜아지스는 계급의 수[* 몇 개로 쪼갤 것인가]를 결정하는 방법으로 다음과 같은 공식을 만들었다. 히스토그램을 만들때 유용하다. * 계급의 수 k {{{=}}} 1 + (log,,10,,N / log,,10,,2) (N; 자료의 수) = {{{1 + (LOG10(N) / LOG10(2))}}} * 계급의 범위 R = (Max값 - Min값) / k 분류하는 방법은 위의 공식을 이용하여 다음과 같은 순서로 구하면 된다. 1. 데이터의 총 개수, Max값, Min값을 구한다. 이 때 Max값, Min값을 구할 때는 이상치를 제거하는 것이 좋다. 2. 스튜아지스의 방법을 이용하여 계급의 수(k)를 구한다. 3. 윗 단계에서 구해진 계급의 수 k를 이용하여 값의 범위를 구한다. 4. 구해진 범위로 데이터를 구분한다.