본문 바로가기
@ '통계학' 당주힘실

[당주힘실 통계학] 8. 정규분포_실제로는 연속적이다

by jjsm1000:) 2022. 8. 18.

당.주.힘.실 : 당신의 주장에 힘을 실어줄

 


확률변수가 취하는 값들이 셀 수 있는 것이 아니라 시간, 몸무게 또는 0과 1 사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속 확률분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 관하여 이야기한다. 정규분포는 종 모양의 확률밀도함수를 갖는 분포다. 여러 종류의 자료를 설명하는 데 정규분포가 좋은 분포임이 밝혀졌다. 모든 자료를 설명할 수 있는 것은 아니고 주어지는 자료에 따라 더 적합한 여러 근사 분포들이 제안되어 왔다. 그러나 여전히 정규 분포에 대한 이론들을 통계학 이론의 근간을 이루고 있으며 여러 분야에 응용범위가 넓다.

 

연속확률분포

연속확률변수 X는 주어진 구간의 모든 값을 가질 수 있으므로 그 분포를 표현하는 데 있어서 X가 취하는 값을 모두 나열하여 각각에 확률을 대응시키는 이산 확률분포의 방법을 그대로 받아들이기는 어렵다. 이 경우에는 각 x값에 확률을 대응시키는 대신에 주어진 구간에서 확률이 어떻게 분포하는가, 즉 어느 구간의 확률이 더 크고, 어느 구간의 확률이 작은가를 나타낼 수 있는 함수를 이용하게 된다. 연속확률변수 X의 확률분포는 확률의 밀도를 나타내는 X의 확률밀도함수에 의해 결정된다.

 

확률밀도함수

 

확률밀도함수는 이산확률분포의 확률함수와는 달리 확률을 나타내는 것이 아니므로 f(x)가 1보다 작아야 된다는 조건은 필요가 없다. 연속확률변수가 어떤 주어진 점 x값을 갖게 될 확률이 0 임을 알 수 있다. 그것은 x라는 점을 구간으로 표현하면 [x, x]로 위 식 중에 P(X=x) = 0을 따른다. 그러므로 어떤 구간의 확률을 구할 때 그 구간의 경계점이 포함되는가 포함되지 않는가는 고려되지 않는다. 포함된 것과 포함되지 않은 것과 값은 같다. 경계점이 없다는 것은 다음 예시를 통해 이해하면 된다.

신생아의 몸무게가 3.5kg일 확률은 0이다. 그러나 [3.495, 3.505]에 속할 확률은 0이 아니다. 이처럼 정규분포는 특정 사건에 대한 확률이 아닌 어디에 속할 수 있는 가능성을 가늠하는 목적이다. 실제로는 수치화된 결과를 예상하기 전에 숫자 자체가 연속적이다.

 

정규분포의 일반적인 성질과 확률계산

정규분포는 평균과 분산에 의해서 그 분포가 확정된다. 확률변수 X가 평균 m과 분산 σ^2를 갖는 정규분포를 따를 때, X의 확률밀도함수는 아래와 같이 주어진다. 표현상 편의를 위해 평균 m(mu), 분산 σ^2을 갖는 정규분포를 앞으로는 N(m, σ^2)으로 표시한다.

정규분포의 확률밀도함수

 

우선 평균 m이 확률밀도함수의 최고치를 주는 최빈값과 일치하며, 즉 평균 m을 중심으로 좌우 대칭을 이루어서 평균과 중앙값도 일치한다. 또한 확률밀도함수가 모든 실수에 대해 0보다 크지만 평균 m으로부터 멀어지면서 그 함숫값이 급격히 작아져서 확률이 m을 중심으로 3σ 안에 거의 집중되어 있다. (99.73%)

정규분포에서 m과  σ^2이 갖는 의미는 (1) m은 평균으로 분포의 중심을 나타내는 위치 모수이고, (2)σ^2은 평균으로부터 퍼져 있는 정도를 나타내는 모수가 된다. 그러므로 σ^2은 그대로 두고 m을 변화시키면 분포의 형태는 똑같이 유지한 채 위치만 변화한다. 한편 m을 그대로 두고 σ^2를 변화시키면 대칭의 중심은 m으로 고정된 채 분포의 형태가 m을 중심으로 집중되는 것과 같이 변화하게 된다.

(좌)분산변화, (우)평균변화

 

정규분포의 확률계산

1. 표준 정규분포

정규분포 중에서 평균이 0이고 분산이 1인 경우를 표준정규분포라고 한다. 즉 N(0, 1)의 경우를 말한다. 표준정규분포에 대한 확률변수는 관례상 X가 아닌 Z로 표현한다. 이러한 경우에 P[Z<= -z] = P[Z>= z]이고 Z는 연속확률분포이므로 P[Z>= z] = P[Z> z] = 1-P[Z<= z]가 된다. 임의의 실수 a<b인 경우에 Z가 해당 구간 [a, b]에 있을 확률은

P[a<= Z<= b] = P[Z<=b] - P[Z<=a]  

 

정규분포표에서 정확한 값을 찾을 수 없을 때 표에 제시된 값에서 내분점을 통하여 구할 수 있다. 다음 예시를 참고한다.

(예시) P[-z<= Z<= z] = 0.90이 되는 양의 실수 z의 값

(풀이) P[-z<= Z] = 0.45, P[Z<= -z] = P[Z>= z] = 0.05 만족

정규분포표에 따르면 P[Z<= -1.65] = 0.0495, P[Z>= 1.64] = 0.0505

두 P의 중간값 = 0.5, 즉 두 z의 중간값 (1.65+1.64)/2 = 1.645

(결론) z= 1.645

 

그러나 위 예제에서와 같이 두 값이 같은 거리에 떨어져 있는 경우가 아니고서는 내분점보다는 가까운 점을 찾는 것으로 대신한다. 표준정규분포에 관한 확률계산 방법은 일반 정규분포의 확률계산에도 이용된다. 이를 위해 정규분포의 다음 특성이 필요하다.

 

2. 일반 정규분포

확률변수 X가 N(m, σ^2) 일 때 표준화된 확률변수 Z는

Z= (X-m)/ σ

을 따른다. 이때 평균 0, 분산 1인 N(0, 1)이다.

일반 정규분포의 확률 계산을 위해 표준 정규분포로의 변환으로 이해하면 쉽다. 즉 N(m, σ^2)을 따르는 것을 N(0, 1)로 변환하기 위해 확률변수 X를 Z로 변환하는 것과 같다.

 

이항분포의 정규분포근사

이항분포는 성공할 확률이 p인 베르누이 실행을 n번 반복할 때 성공의 횟수가 갖는 분포이다. 이러한 이항분포에서 n이 아주 크고 p는 아주 작아서 np=m(상수)이 될 때 그 분포가 포아송분포에 가까워짐을 설명했다. 이항분포의 n이 아주 크고 p가 0이나 1에 가깝지 않을 때, 즉 np와 n(1-p)가 모두 클 때 그 분포가 정규분포에 가까워진다. 정규분포의 평균과 분산은 이항분포에서와 일치하여야 한다. m= np, σ^2= np(1-p)이며 X가 Bin(n, p)를 따른다. 아래 그래프에서 보는 바와 같이 p= 0.8로 유지하고 n이 증가함에 따라 분포의 형태가 점차 대칭에 가까워지고 종 모양을 이루는 것을 알 수 있다. 이와 같은 경향은 n이 커짐에 따라 더욱 확실하게 드러난다. 

이항분포의 확률 히스토그램

 

n이 큰 경우에 P(X=x)의 근사치는 어떻게 구할 것인가? 정규분포는 연속확률분포이므로 주어진 어느 한 점에서의 확률은 언제나 0인 데 반해서 이항분포의 경우에는 0과 n 사이의 임의의 정수 x에 대하여 P(X=x)는 0이 아니다. 개념적으로 이항분포에서 연속확률분포에 적용한 확률 계산이 불가능해보인다. 그러나 n이 증가함에 따라 이항분포의 확률 히스토그램은 정규분포의 확률밀도함수와 같이 대칭인 종 모양에 가까워지는 점, 이항분포에서 X가 어느 한 점인 x값을 가질 확률은 x가 정수일 때 X[x-1/2, x+1/2]에 속할 확률과 동일한 점을 이용한다. 이와 같이 1/2씩 가감하는 과정을 이산분포에서 연속분포로의 근사를 위한 연속성 수정이라고 한다. 즉, 이항분포 [a<= X<= b]일 확률은 [a-1/2<= X<=b+1/2]일 확률로 근사된다.

이항분포 확률의 정규분포 확률로의 근사

 

확률변수 X가 이항분포, 즉 X ~Bin(n, p)이고 np나 n(1-p)가 모두 클 경우에 X는 근사적으로 평균이 np이고 분산이 np(1-p)인 정규분포를 따른다.

이항분포의 정규분포근사 ; ~N(0,1)

 

정규분포가정의 조사

모집단의 분포가 정규분포를 따른다는 가정을 이미 하고 있지만 우리가 가정한 정규 모집단의 가정이 맞지 않는다면 이후의 부서 등은 전부 의미가 없다. 표본 추출할 때 이것이 정규모집단의 가정을 조사하는 방법은 그래프를 이용하는 것이다. 예를 들어 히스토그램을 그려보아서 정규분포의 특징인 대칭성을 확인할 수 있다. 그리고 평균으로부터 동일한 표준편차 합차만큼의 구간이 정규분포의 통상적인 자료의 비율과 근사한지 비교할 수 있다. 이론적으로 정규점수그림과 정규확률그림이라는 방법이 있으나 구체적인 분석 순서는 생략한다.

예시로 들었던 정규분포가정의 조사 중에 표본의 크기가 너무 작아서 정규분포의 형태를 갖도록 시도하는 것도 하나의 방법이 된다. 표본이 적은 자료가 그 형태를 갖게 한다는 것은 자료 자체에 제곱, 세제곱 또는 제곱근, 루트화, 분모화와 같이 자료의 변환이 있다.

 

 

한 줄 요약
연속확률분포에 대한 분석을 위한 (일반)표준정규분포의 확률계산을 보았고, 이항분포 경우 필요시 정규분포로의 근사가 가능하다.

 


 

댓글