본문 바로가기
@ '통계학' 당주힘실

[당주힘실 통계학] 9. 표집분포_정규분포로 추론하기 위한 표본의 크기

by jjsm1000:) 2022. 8. 18.

당.주.힘.실 : 당신의 주장에 힘을 실어줄

 


주어진 표본에서 모집단의 성격을 알아내고자 하는 추론이 통계학의 핵심이다. 이처럼 일부분을 가지고 전체에 대하여 일반화하여 이야기할 수 있는 배경에는 주어진 일부분이 전체 모집단의 특성을 잘 반영하고 있다는 생각이 전제다. 모집단의 특성 중 어떠한 수치, 예를 들면 모평균, 모비율, 모표준편차 등에 관심이 있다. 이러한 특성 값을 모수라고 하며 통계학에서 추론의 실제 대상이다.

이때 모집단을 전부 다 조사한다는 것은 불가능하거나 가능하더라도 많은 시간과 인력이 요구된다. 통계적 추론이 힘을 발휘하는 이유가 되는 부분이다. 즉 제한된 표본으로부터 모수를 추론하는 이론적인 뒷받침을 제공하는 것이다. 표본을 이용하여 모수에 대해 추론하려면 표본에서 계산되는 적절한 양을 이용하게 되는데 이러한 양을 통계량이라고 한다.

 

- 모수 : 수치로 표현되는 모집단의 특성, 예시로 모평균 등.

- 통계량 : 표본이 관측값들에 의하여 결정되는 양, 예시로 표본평균, 표본상관계수, 표본표준편차 등.

 

아래 유념할 점 세 가지를 통하여 그 차이를 분명히 한다.

1. 표본은 단지 모집단의 한 부분이다. 표본으로부터 계산된 통계량의 값은 모수의 참값과 통상적으로 차이가 있다.

2. 통계량의 값은 그 당시 추출된 표본에 영향을 받는다.

3. 다른 표본을 추출할 때마다 통계량의 값은 변한다.

 

마치 통계량은 모수가 되기 위한 몽상가처럼 보인다. 그러나 모수가 되기 위한 꿈은 허망하지 않다. 표본평균으로부터 모평균을 얼마나 정확하게 알 수 있는지를 결정하는 것은 바로 표본평균이 표본추출 때마다 달라지는 변동성에 달려 있다. 즉 모든 가능한 표본의 종류별로 표본평균의 값들이 어떻게 달라지는지를 알 수 있다면 현재의 표본평균이 모평균에 얼마나 가까운 상태인지를 알 수 있다.

 

통계량의 확률분포

통계량이라는 것은 그 자체가 확률변수로서 여느 확률변수처럼 자신의 확률분포를 갖게 된다. 반복되는 표본추출에서 통계량 값의 변동은 바로 이 확률분포에 의하여 설명될 수 있다. 대부분의 경우에 우리는 하나의 표본에서 계산된 하나의 통계량의 값만을 가지고 있지만 여러 표본이 있을 때 통계량의 값들은 표집분포(* 통계량의 확률분포)에 따라서 변화하게 된다. 통계량의 분포는 모집단의 분포에 영향을 받고, 또한 표본의 크기 n에도 영향을 받는다.

 

(예시) X는 2, 3 중 하나의 값을 갖는다. 복원추출을 통하여 표본평균의 분포를 구한다.

(풀이)

분포에 대한 표는 아래와 같이 정리할 수 있다.

<표1. 각 경우와 그에 대응하는 확률>

(x1, x2) (2, 2) (2, 3) (3, 2) (3, 3)
표본평균 x 2 2.5 2.5 3
확률 1/4 1/4 1/4 1/4

<표2. 표본평균의 분포>

표본평균 x 2 2.5 3 합계
f(표본평균 x) 1/4 1/2 1/4 1

 

X의 2, 3을 개별적으로 뽑는 경우를 생각하면 각각 1/2로 동일하다 그러나 표본평균의 분포는 2.5라는 중간에 집중되어 있다. x1과 x2의 분포가 모두 모집단의 분포와 같아지도록 하기 위해서 복원추출을 이용하였는다. 만약에 모집단이 2, 3을 각각 하나씩이 아니라 각각 100번을 포함하여 모집단의 크기가 200인 경우에 크기가 2인 표본을 비복원 추출했다면 이때는 복원추출에서와 같이 x1, x2의 분포가 모두 모집단의 분포와 같은 것으로 간주할 수 있다. 일반적으로 크기가 큰 모집단으로부터 임의 추출된 크기가 n인 표본은 서로 독립이고 모두 모집단의 분포와 같은 분포를 갖는 것으로 간주한다. 이러한 X1,..., Xn을 임의 표본이라고 한다.

표본의 크기가 n인 경우에 통계량의 표집분포는 어떻게 구할 수 있을까. 표집분포는 위 예제와 같이 다음에 제시된 순서에 따라 구할 수 있다.

1. 모든 가능한 표본의 종류를 나열

2. 각 표본에서의 통계량의 값을 구한다

3. 통계량이 취하는 각 값에 대응하는 확률을 계산

 

그러나 이와 같은 방법은 모집단의 표본의 크기가 커짐에 따라 아주 방대한 계산을 요구하게 된다. 따라서 정확한 분포보다는 근사적으로나마 간단한 분포를 필요로 하는 경우가 많다.

 

표본평균의 분포와 중심극한정리

모집단의 중심을 나타내는 수치로서 가장 많이 사용되는 것은 모평균이라고 할 수 있다. 모평균에 대한 추론은 표본평균과 그 분포(표집분포)를 이용한다. 표본의 크기가 n인 표본평균의 기댓값과 분산, 표준편차는 다음과 같다.

모집단의 추정 기댓값 = 모집단의 기댓값
모집단의 추정 분산 = 모집단의 분산 / 표본의 크기
모집단의 추정 표준편차

 

표본평균의 분포 중심은 모집단의 중심, 즉 모집단의 평균과 같다. 그러나 표집분포의 퍼짐 정도를 측정하는 표준편차는 모집단의 표준편차뿐만 아니라 표본의 크기에도 영향을 받는다. 이는 표본평균의 분포가 모집단의 평균을 중심으로 더욱 집중됨을 나타낸다. 예를 들어 표본의 크기를 100배 늘리면 표본평균의 표준편차는 1/10으로 감소하여 표집분포가 모집단의 평균을 중심으로 더욱 집중된다.

모평균이 μ이고 모표준편차가 σ인 정규모집단에서 n개의 표본을 임의로 추출할 때 그 표본평균의 분포는 평균이 μ, 분산은 σ^2/n인 정규분포이다. 이때 표본의 크기 n이 큰 경우에는 (보통 30 이상) 표본평균의 분포는 모집단의 분포와 무관하게 근사적으로 정규분포를 따르게 된다. 이를 중심극한정리라 부른다.

중심극한정리의 수학적 정의

 

모집단의 분포가 연속, 이산 또는 대칭, 비대칭에 상관없이 평균과 분산이 존재하면 표본의 크기가 클 때 표본평균의 분포가 근사적으로 정규분포를 따르게 된다. 다시 말해 표본을 뒷받침하는 통계량이 모수로서 추론이 어느정도 가능한 이유는 표본의 크기 n이 어느 정도 크다는 전제하에 중심극한정리에 의하여 정규분포를 따라도 된다는 이야기가 된다.

 

보통 n이 30이상이라는 기준을 두었지만 실제로 어느 정도여야 만족스러운 근사치를 얻을 수 있는 문제를 생각해보아야 한다. 이는 모집단의 분포형태에 따라 달라진다. 예를 들어 한쪽으로 많이 치우쳐 있다든지 혹은 양 끝에 두꺼운 꼬리를 갖는 모집단에서는 상대적으로 큰 표본이 필요하다. 경우에 따라 모집단이 정규분포일 때는 크기가 1인 표본도 정규분포를 따른다. 그러나 일반적으로 표본의 크기가 30 이상인 경우에는 비교적 만족스러운 근사치를 얻을 수 있다.

 

한 줄 요약
정규분포를 통해 모집단의 특성을 추론하려면 중심극한정리에 의하여 최소 표본의 크기는 30 이상이어야 한다. 

 


 

댓글