본문 바로가기
@ '통계학' 당주힘실

[당주힘실 통계학] 10-2. 통계적 추론, 표본의 크기가 클 때_모평균의 가설 검정

by jjsm1000:) 2022. 8. 18.

당.주.힘.실 : 당신의 주장에 힘을 실어줄

 


10-1. 서론 중

- 모수의 추정 : 미지수인 모수에 대한 추측을 수치화된 정확도와 함께 제시 / 점추정, 구간추정

- 모수에 대한 가설검정 : 모수에 대한 여러 가설들이 적합한지 혹은 적합하지 않은 것인지를 추출된 표본으로부터 판단

 

(예시, 모평균의 추정) 서울시 A중학교 1학년 100명을 임의 추출하여 키를 조사했다. 우리는 서울시의 모든 중학교 1학년 인원의 키를 알고자 한다. 이를 위해 다음과 같은 추론이 가능하다.

(결론)

- 모평균을 하나의 값으로 추정한다 : 점추정

- 모평균을 포함할 만한 적당한 구간을 정한다 : 구간추정

- 모평균이 5년 전의 평균값인 155cm와 다른지를 판단한다 : 가설검정

 

이번 페이지에서는 정규분포를 이용하여 모평균에 대한 검정을 알아본다. 

추가로 모비율에 대한 추정과 검정을 다룬다. 

 

가설검정이 필요한 한 가지 예

도시 A는 1년간 콜레스테롤 수치를 낮추는 캠페인을 했다. 1년 뒤 도시 A의 성인 40명을 대상으로 콜레스테롤 수치를 측정하여 그 평균을 계산했다. [* 캠페인 시작 당시, 평균 / 표준편차 (단위 생략) : 200 / 24]

 

1년 뒤, 40명의 콜레스테롤을 측정할 때 200보다 낮다고 하여 그것이 캠페인의 효과가 있다고 할 근거가 될까?

(1) 40명의 콜레스테롤이 도시 A 전체 인원의 콜레스테롤을 추론할 수 없다.

(2) 40명은 특정 인원이며 최초 콜레스테롤 수치가 높았을 수도 있다.

 

위 두 가지 문제를 해결하기 위해 40명의 최초 콜레스테롤 200이 애초에 아주 낮은 수치라는 것이라 가설을 세울 수 있다면, 어느 정도 수준으로 200 이하의 값을 가질 때 40명은 물론이고 도시 A 전체 인원의 콜레스테롤이 낮아졌음을 근거할 수 있다. 

 

가설 / 오류 / 검정

1. 가설

가설검정에는 두 개의 가설이 있는데 하나는 우리가 주장하고자 하는 가설(대립가설, H1)이고, 다른 하나는 그 주장을 입증할 수 없을 때 주장을 무효화시키면서 받아들여야 하는 가설(귀무가설, H0)이다.

 

위의 예시로 보면 '캠페인은 평균 콜레스테롤 수치가 낮춘다'는 것을 보이고자 하므로 대립가설은 H1< 200으로 표현할 수 있고, 캠페인의 효과를 입증할 수 없을 때 받아들이게 되는 가설은 '캠페인이 효과가 없어서 콜레스테롤의 수치에 변화가 없다'는 것이므로 귀무가설은 H0= 200으로 쓸 수 있다.

일반적으로 귀무가설은 대립가설의 반대가 되므로 대립가설의 여집합으로 표현되기도 한다.(H0*>= 200) 그러나 두 경우에 검정방법이나 그 결과에 전혀 차이가 없으므로 H0= 200으로 단순화한다. 관례적으로 H0, H1 순으로 적는다.

 

 

2. 오류의 종류

가설검정에 내리는 최종 판단은 다음 두 가지 형태를 갖는다.

(* H0, H1은 개념일 뿐 이 자체로 위 예시의 모평균이나 표본평균을 특정하지 않는다.)

 

(1) H0 기각, H1 채택

- 표본평균이 200보다 상당히 작을 때(H0기각) >>> H1 '모평균< 200' 주장 채택.

- 실제 H0이 맞을 때(H1이 틀림) : 1종 오류

 

(2) H0 기각 불가하므로, H0 유지

- 표본평균이 충분히 작지 않을 때(H0 기각 불가) >>> H1'모평균<200'을 주장할 수 없음. 모평균= 200 유지.

- 실제 H1이 맞을 때(H0이 틀림) : 2종 오류

 

 

3. 모평균에 대한 검정

- 검정통계량 : 모집단의 일부분인 표본으로부터 검정의 결론에 이용되는 표본의 함수

- 기각역 : 검정통계량에서의 함수가 취하는 구간 중에서 H0를 기각하게 되는 구간, R : 표본평균<= c

- 유의수준 a : H0가 맞을 때, 즉 선택된 기각역의 H0하에서의 확률

 

표본의 크기가 클 때 모평균(μ)에 대한 가설 H0: μ= μ0 을 검정하기 위한 검정통계량은 다음과 같다.

(* 단 모집단의 표준편차가 주어져 있을 때 s를 σ로 대체한다)

검정통계량

 

검정통계량의 분포는 H0가 맞을 때 N(0, 1)을 따른다. 각 대립가설에 대하여 유의수준 a를 갖는 기각역은 다음과 같다.

단측검정, H1 : μ< μ0, R : Z<= -z_a

단측검정, H1 : μ> μ0, R : Z>= z_a

양측검정, H1 : μ≠ μ0, R : |Z|<= z_a/2

 

 

* P-값(또는 유의확률)

H0를 기각할 수 있게 하는 최소의 유의수준. 계산된 P-값이 원하는 유의수준보다 작으면, H0를 기각할 수 있고, 유의수준보다 크면 H0를 기각할 수 없다. 유의수준에 따른 기각역을 구하지 않고도 주어진 자료로부터 P-값을 계산하고 이를 원하는 유의수준과 비교하여 기각여부를 결정할 수 있다.

 

모비율에 대한 추론

표본의 크기가 클 때 적용가능한 모비율에 대한 추정, 검정하는 방법을 다룬다. 표본이 작은 경우는 이항 분포를 이용하여 모비율에 대한 추론을 하는데 기본 논리는 같으나 계산이 복잡하고 실제로 사용빈도도 낮아서 제외한다.

 

그런데 사실 모평균을 추론하는 방식은 동일하고, 차이는 단순히 평균과 비율(=확률)에 있다.

추정(1. 점추정, 2. 구간추정), 검정의 식은 전 장에 사용한 공식과 동일하다.

 

- 평균 X̅(μ) 대신에 확률 p 를 사용한다.

- 점추정시 추정량인 표본평균은 모평균과 같고, 표본비율은 표본평균/n 이다. 

- 이에 따라 표준편차 σ(s) 대신에 √p(1-p)을 사용한다. (* 분산 σ^2= p(1-p))

 

표본비율
(좌) 표준오차 S.E., (우) 추정된 표준오차
모비율의 표준화된 분포
모비율의 신뢰구간
모비율의 검정통계량

 

 

한 줄 요약
가설을 설정하고 검정통계량과 기각역을 통해 유의수준으로 판단한다.

 


 

댓글