본문 바로가기
@ '통계학' 당주힘실

[당주힘실 통계학] 12-1. 두 모집단의 비교_두 개의 독립표본 비교

by jjsm1000:) 2022. 8. 20.

당.주.힘.실 : 당신의 주장에 힘을 실어줄

 


두 모집단 간의 차이가 관심의 대상이 된다. 예를 들면 기존의 것과 변경점을 갖는 것의 효과 비교와 같은 것이다. 두 모집단의 비교를 위한 추론 가정은 자료를 어떻게 수집하느냐에 따라 추론 방법이 달라진다. 두 종류의 자료수집 과정에 따른 추론 방법을 소개한다. 그전에 기본적인 용어를 정의한다.

- 처리 : 비교하고자하는 특성, 일종의 개별적 모집단이 될 수 있다.

- 실험단위 : 실험 대상

- 반응값 : 실험 후에 얻어지는 수치

 

1. 두 개의 독립표본 비교 : 임의로 두 그룹으로 나누어 한 그룹에는 처리1, 다른 그룹에는 처리2를 배정. 각 그룹의 실험대상으로부터 얻어지는 반응 값들은 서로 영향을 주지 않는 독립이다. 예를 들어 조건이 비슷한 총 20개의 표본 중 10개씩 나누어 처리1, 처리2를 배정하는 것이므로 시행하는 데 있어 두 그룹 간 독립됨을 의미한다.

2. 짝비교 : 실험대상들의 외적인 조건이 많아서 최대한 비슷한 조건의 실험대상끼리 짝을 짓는다. 그리고 각 쌍에 있는 하나는 처리1, 나머지는 처리2를 배정한다. 이때 짝 지우는 과정에 각 쌍에 있는 실험단위들은 비슷한 특성을 갖게 되므로 서로 독립이라 할 수 없다. 이 경우 각 쌍마다 한 쌍의 반응값을 관측하여 서로 비교하게 된다.

 

개념을 좀 더 명확히 하기 위해 다음 소개될 내용들을 알아보고 간단한 이해를 위한 최종 정리를 할 예정이다. 추가로 두 모비율의 차이를 추론하는 방법을 정리할 것이다.

 

두 개의 독립 표본 (표본의 크기가 클 때)

독립인 두 개의 표본으로부터 두 모집단, 혹은 두 가지의 처리효과를 비교하는 통계추론의 방법이다. 마치 독립된 두 개의 비커에서 각각 다른 처리를 시행하고 그 반응 값을 얻는 것으로 직관적 이해가 가능하다. 두 모집단으로부터 추출된 표본과 그로부터 계산되는 통계량을 정리한 것이다.

 

1. 최초 설정

- 모집단 : X & Y, 표본 : X1, ...,Xn & Y1,..., Yn

- 평균 : μ1 & μ2, 표준편차 : σ1 & σ2

- 표본평균

- 표본분산

 

여기서 우리의 관심사는 두 모집단의 평균 반응 값의 차이다. 즉 μ1 - μ2에 대한 추론이 필요하다.

 

2. 모평균의 차에 대한 추론 (표본의 크기가 클 때)

두 모평균의 차에 대한 추론은 두 표본평균의 차를 이용한다. 두 표본의 크기가 모두 30이상으로 큰 경우 중심극한정리에 의해 표본평균은 다음과 같이 근사적으로 정규분포를 따른다. 

 

정리하면, 두 개의 확률변수 X, Y가 서로 독립이고 다음과 같이 정규분포를 따를 때 두 변수의 합과 차는 각각 정규분포를 따른다.

복호동순

 

두 표본은 서로 독립이므로 두 표본평균의 차 역시 정규분포를 따른다. 따라서 표준화된 확률변수는 표준정규분포를 따르고, 모분산을 모를 때에는 이를 표본분산으로 대체하여도 다음과 같이 근사적으로 표준정규분포를 따른다.

 

이 분포를 바탕으로 μ1 - μ2에 대한 100*(1-a)% 신뢰구간은 다음의 형식에 따라 최종 정리가 가능하다.

표본의 크기가 클 때 모평균 차에 대한 신뢰구간

 

3. H0 : μ1-μ2 = δ0에 대한 검정 (표본의 크기가 클 때)

표본의 크기 n1, n2가 모두 30 이상일 때 가설 H0에 대한 검정 통계량은 다음과 같다.

 

검정통계량의 분포는 H0이 맞을 때 N(0, 1)을 따른다. 각 대립가설에 대하여 유의수준 a를 갖는 기각역은 다음과 같다.

H1 :μ1-μ2 < δ0, R : Z<= -z_a

H1 : μ1-μ2 > δ0, R : Z>= z_a

H1 : μ1-μ2 δ0, R : |Z|>= z_a/2

 

 

두 개의 독립 표본 (표본의 크기가 작을 때)

표본의 크기가 작을 때에도 결국 두 모집단에 대하여 정규분포 가정이 필요하다. 또한 두 모집단의 표준편차에 대한 가정이 필요한데, 그 하나는 두 모집단의 표준편차가 같다고 가정하는 경우이고 하나는 다르다고 가정하는 경우다. 두 모집단의 표준편차 동일 여부의 기준은 표본의 표준편차를 이용한다. 두 표본 표준편차의 비율 s1/s2가 1에 가까우면 모표준편차가 동일하다는 가정이 적합할 수 있다.

 

1. 표본의 크기가 작을 때 필요한 가정

(1) 두 모집단이 모두 정규분포를 따른다.

(2) 두 모집단의 표준편차가 일치한다. (σ1=σ2=σ)

* 일치하지 않을 때 판단 기준은 이 페이지 가장 하단을 참조

 

두 모집단의 공통 표준편차인 σ를 아는 경우에는 정규분포를 이용하여 추론할 수 있으나 대부분의 경우 σ를 모르므로 별도의 σ 추정이 필요하다. σ에 대한 정보는 각 표본의 편차 제곱합에 포함되어 있다. 이 두 제곱합을 더하여 각각의 자유도의 합을 나누어 분산 σ^2의 추정량으로 사용한다. 이를 공통 분산의 합동 추정량이라고 한다.

두 모집단 X, Y의 공통분산 합동 추정량

 

 

2. 모평균의 차에 대한 추론 (표본의 크기가 작을 때)

두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게 되는 표준화된 확률변수는 자유도가 n1+n2-2 인 t 분포를 따른다.

표본의 크기가 작을 때, 두 모집간 t 분포

 

이 분포를 바탕으로 μ1 - μ2에 대한 100*(1-a)% 신뢰구간은 다음의 형식에 따라 최종 정리가 가능하다.

모평균의 차에 대한 신뢰구간(표본의 크기가 작고 모표준편차 같을 때)

 

 

3. H0 : μ1-μ2 = δ0 에 대한 검정 (표본의 크기가 작을 때)

표본의 크기가 작고 모표준편차가 같을 때 가설 H0에 대한 검정 통계량은 다음과 같다.

 

검정통계량의 분포는 H0이 맞을 때 자유도가 (n1+n2-2)인 t분포를 따른다. 각 대립가설에 대하여 유의수준 a를 갖는 기각역은 다음과 같다.

H1 :μ1-μ2 < δ0, R : t<= -t_a(n1+n2-2)

H1 : μ1-μ2 > δ0, R : t>= t_a(n1+n2-2)

H1 : μ1-μ2  δ0, R : |t|>= t_a/2(n1+n2-2)

 

 

* 두 모집단의 표준편차가 같지 않을 때

표본의 크기가 클 때 사용하였던 표준화된 확률변수는 표본의 크기가 작고 두 모표준편차가 같지 않을 경우에 근사적으로 t 분포를 따른다. 이때 자유도는 (n1-1), (n2-1) 중 작은 값이다.

 

1.

이 분포를 이용한 모평균의 차의 100(1-a)% 신뢰구간은 근사적으로 아래와 같다. 이때 t*의 자유도는 n1-1, n2-1 중 작은 값이다.

모평균 차의 신뢰구간(표준편차 다를 때 근사 t분포)

 

2.

가설 H0 : μ1-μ2= δ0에 대한 검정 통계량은 다음과 같다. 이 검정통계량의 분포는 H0이 맞을 때 근사적으로 자유도가 n1-1, n2-1 중 작은 값인 t 분포를 따른다.

검정통계량(근사 t 분포)

 

여기서 제시하는 방법은 조금 보수적인 성질을 갖는다. 즉 신뢰구간의 경우 그 구간이 넓어지는 경향이 있다. 따라서 실제 신뢰도가 100(1-a)% 이상이 된다. 검정의 경우 기각역이 좁아지는 경향이 있어서 실제 유의수준이 a 이하가 되므로 귀무가설을 기각하지 못할 가능성이 높다.

 

한 줄 요약
서로 독립인 두 모집단을 비교할 때 표본의 크기에 맞춰 특정 분포를 따른다. 그리고 모평균의 차를 통하여 신뢰구간을 확인하거나 가설검정으로 추론이 가능하다.

 


 

댓글