당.주.힘.실 : 당신의 주장에 힘을 실어줄
두 모집단뿐 아니라 셋 이상의 모집단 간의 평균을 비교하는 방법으로서 널리 사용되는 분산분석이 있다. 관측값들이 달라지는 것을 여러 요인으로 나누어 각 요인들이 얼마나 변화의 정도에 기여하였는가를 분석하는 것이다. 여기서는 여러 집단의 모평균을 비교하기 위하여 전체의 변동을 두 가지 변동 요인, 즉 모집단 간의 변동과 모집단 내의 변동으로만 나누어 분석하는 방법, 일원배치 분산분석법을 보기로 한다.
일원배치 분산분석법
이 장에서 살펴볼 자료의 형태는 k개의 변수와 그에 따른 반응값이다. 13장 같은 경우는 k=2 였으며 x, y라는 두 개의 변수와 그 관계를 알아보았다. 그러나 k>2 의 변수를 비교하는 데 있어 여러 가지의 처리를 두 처리씩 여러 번 비교하는 것보다 동시에 비교하는 것이 시간이나 비용을 고려할 때 더 편리한 것이 보통이다. 초기 설정은 다음과 같다.
- k개의 처리 (k> 2, 변수 i)
- n_k개의 관측자료 (y, 변수 j)
분석을 하려면 먼저 관측값들을 각 구성요소들로 분해하여야 한다.
관측값 = 총평균 + (처리에 의한 편차) + (잔차)
먼저 변동(분산성)에 대한 것은 이전에 원소들에 제곱합으로 기술한 경험이 있다. 이와 마찬가지로 분해된 구성요소들을 확인해본다.
얻어진 평균에 차이가 없다면 처리에 의한 편차, 처리효과 값들이 거의 0에 가까워야만 할 것이다. 전체 처리효과들의 변동을 측정하는 양으로 모든 원소들의 제곱합을 처리제곱합, SStr이라고 한다.
잔차는 각 관측값과 그 관측값이 속한 처리평균과의 편차를 나타낸다. 이러한 편차들은 실험에 사용되는 물질 자체의 변동값이나 측정기기의 변동값을 반영하여 준다. 이 잔차에 의한 변동들은 해당하는 모든 원소들의 제곱합으로 표현하고 이를 오차제곱합, SSE라고 한다.
총제곱합의 값은 처리제곱합에 오차제곱합을 더한 값이 된다.
각 제곱합에 연관된 자유도를 분해하여 보자. 일반적으로 제곱합의 자유도에 관하여 다음이 성립한다.
제곱합의 자유도 = (제곱을 하여 더하는 항의 수)-(각 항들에 의하여 만족되는 선형 제약조건의 수)
총 제곱합과 그 구성요소, 제곱합의 자유도와 그 구성요소를 1대 1 대응하여 각각의 평균제곱이라는 개념을 추가하여 표의 형태로 정리한다. 이것을 분산분석표라 정의한다.
분산분석의 계산을 손으로 하려면 제곱합을 다음과 같은 간편 계산식으로 나타내는 것이 편리하다. 오차제곱합은 계산하지 않고 총 제곱합에서 처리제곱합을 빼서 구할 수도 있다.
일원배치 분산분석모형에서의 추론
처리 효과들 사이에 차이가 있는지를 통계적으로 검정하려면 실험 모집단에 대한 모형이 있어야 한다.
<처리 k개를 비교하기 위한 모형>
비교하려는 처리가 k개, 각 처리에서 반복 측정을 n_i(i=1,..., k)번 할 때, i번째 처리에서 j번째 관측한 반응값을 Yij라고하면 다음과 같이 표현할 수 있다.
여기에는 μ는 처리의 모평균이다. ε는 오차는 모두 서로 독립이고 평균 0, 분산 σ^2인 정규분포를 따른다.
k개의 모집단의 모평균이 차이가 없다는 귀무가설을 식으로 나타내면 다음과 같다.
H0 : μ1 = μ2 =... = μk
이때 대립가설은 '모든 μi가 다 같은 것은 아니다'가 될 것이다. 만약 귀무가설이 맞다면, 모집단의 평균들이 모두 동일하다면 평균처리제곱도 작아진다고 예상할 수 있다. 반대로 모집단의 모평균들이 서로 상당히 다르다면 평균처리제곱도 커질 것이다. 따라서 평균처리제곱의 크고 작음에 따라 귀무가설의 기각여부를 결정하여야 하는데, 그 기준으로 공통분산의 추정치인 평균오차제곱이 쓰인다. 즉 평균오차제곱에 대한 평균처리제곱의 비율이 크고 작음에 따라 H0의 기각 여부가 결정된다. 이 비율이 검정통계량이 된다. 이 검정통계량의 분포는 모든 모평균이 동일하다는 귀무가설하에 자유도가 (k-1, n-k)인 F분포를 따른다.
<F 분포를 이용한 모평균의 동일성 검정>
k개의 모집단의 모평균에 대한 가설 H0 : μ1 = μ2 =... = μk 을 검정하기 위한 검정통계량은 다음과 같다.
검정통계량의 분포는 귀무가설이 맞을 때 자유도가 (k-1, n-k)인 F분포를 따르고 유의수준 a의 기각역은 다음과 같다.
한 줄 요약
3개 이상의 변수 관계를 확인하는 것은 각 변수에 대한 반응값의 평균과 전체 반응값의 평균들이 자료가 되어 각 구성요소의 제곱합이란 변동성을 분석한다. 그리고 평균제곱의 개념으로 그 구성요소의 각 기여도를 확인 가능하다.
'@ '통계학' 당주힘실' 카테고리의 다른 글
[당주힘실 통계학_엑셀편] 16. 출산국가 자료로 히스토그램, 파레토 그려보기 (0) | 2022.09.06 |
---|---|
[당주힘실 통계학] 15. 범주형 자료분석_적합도검정, 동질성검정 (1) | 2022.08.21 |
[당주힘실 통계학] 13. 회귀분석_여러개의 변수 (0) | 2022.08.21 |
[당주힘실 통계학] 12-2. 두 모집단의 비교_짝비교, 모비율의 차이 (0) | 2022.08.20 |
[당주힘실 통계학] 12-1. 두 모집단의 비교_두 개의 독립표본 비교 (0) | 2022.08.20 |
댓글