당.주.힘.실 : 당신의 주장에 힘을 실어줄
한 도시에서 일주일 동안 발생한 교통사고의 횟수, 대학생이 여름방학 동안 부업을 하여 번 돈, 시험성적 등과 같이 숫자로 표현되는 자료도 많이 있고, 실제로 특성의 형태로 나타나는 것도 수를 이용하여 표현하는 것이 편리한 경우가 많이 있다. 예를 들어 어떤 마을 주민에게 재개발 여부를 조사하면 찬, 반의 의견이 있을 것이다. 찬성, 반대 자체는 수적인 자료가 아니지만 결국 관심은 각 범주별로 나타난 숫자에 있게 된다. 이처럼 각 근원사건에 수치를 대응시키는 것을 확률변수라고 한다.
확률변수
전에 게시한 확률 개념은 특정 사건이 발생하는지 안 하는지에 대한 수치화였다. 지금 다루는 확률은 실험을 하기에 앞서 어떤 값을 갖게 될지 알 수 없는 불확실성을 표현하는 것이다. 예시를 통해 알아보는 것이 훨씬 수월하다.
예시. 승용차를 소유하고 있는 사람들 중에서 임의로 3명을 선택하여 어느 회사에서 만든 승용차를 가지고 있는지 물어보았다. 승용차는 A, B 두 종류밖에 없다. A 자동차를 가지고 있는 사람의 수를 X(확률변수)로 한다.
근원사건 | AAA | AAB | ABA | BAA | ABB | BAB | BBA | BBB |
X | 3 | 2 | 2 | 2 | 1 | 1 | 1 | 0 |
-> (결론) 확률변수 X : 3, 2, 1, 0
위와 같이 확률변수가 가질 수 있는 값의 개수가 유한하면 이산확률 변수라고 한다. 그러나 연속적인 구간에 속하는 모든 값을 다 가질 수 있는 연속확률 변수도 있다. 그러나 측정기기 자체의 정확도의 한계 때문에 실제로는 우리의 개념상으로만 존재한다. 확률변수의 단위가 시간이라 하더라도 우리는 실제 관측값을 초 단위 이하로 기록하지는 않는 것과 같다.
확률분포
제시한 상황에서 근원사건을 기준으로 확률변수를 구했고, 그 확률변수가 특정한 값을 가지는 것을 하나의 사건으로 볼 수 있다. 이처럼 확률변수가 가지는 값과 각 값을 가질 확률을 정해주는 규칙 또는 관계를 확률 분포라고 한다. 확률변수가 갖는 값들과 그에 대응하는 확률값을 나타내는 것으로 나열된 표나 또는 수식으로 표현된다. 보통은 확률변수 X의 분포라고 한다. 그리고 확률변수에 대한 일대일 대응하는 성질을 차용하여 함수의 개념으로 받아들인다. 즉 확률변수라는 변수에 대응하는 함숫값은 확률분포가 된다. 이것을 확률함수 또는 확률질량함수라고 부른다. 위 예시에 대한 확률분포는 아래와 같다.
X의 값 (확률변수) | 확률 |
0 | 1/8 |
1 | 3/8 |
2 | 3/8 |
3 | 1/8 |
합계 | 1 |
추가로 어떤 사건의 확률을 연역적으로 구할 수 없을 때 우리는 경험적 방법인 상대도수의 수렴치를 이용했다. 마찬가지로 모집단의 확률분포를 알 수 없는 경우는 크기가 큰 표본의 히스토그램을 이용하여 확률분포를 추정하게 된다. 히스토그램과 확률 히스토그램은 그 모양이 비슷하다. 그러나 전자가 표본에 의한 것으로 표본에 따라 그 모양이 변하지만, 후자는 모집단의 분포를 표현하는 것으로 늘 일정하다고 할 수 있다.
확률분포의 기댓값(평균)과 표준편차
3장에서 배운 수치의 중심과 퍼진 정도를 표본평균과 표본표준편차를 통해 알 수 있었다. 확률변수를 통해 구한 확률분포에서의 그 중심과 퍼진 정도를 구해보고자 한다.
기댓값 : 확률변수가 취하는 값과 그 값을 가질 확률(확률분포)에 대한 곱의 모든 합이다. E(X)로 나타내며 mu로 기호표시 한다.
기댓값은 물리적으로 균형점의 의미를 가지고 있다. 예를 들어 이산확률변수 X의 확률 히스토그램을 이차원 평면에 그리는 것이 아니라 삼차원 공간에서 생각해보자. 나무판자 위에 일직선으로 X가 갖는 값들을 표시하고 그 값들 위에 밑면적이 일정한 벽돌을 쌓아 올려 그 높이가 확률에 비례하도록 만들어보자. 이때 밑판의 무게를 무시하고 벽돌만의 무게 중심을 찾아보면 그 점이 평균값과 일치함을 알 수 있다.
표준편차 : 모분산은 모집단의 중심인 mu로부터의 편차제곱, (X-mu)^2의 기댓값으로 정의한다. 그리고 분산은 (X-mu)^2와 (X-mu)^2에 해당하는 확률을 곱한 값의 모든 합이다. Var(X)로 나타내며 sigma^2으로 기호 표시한다. 물론 표준편차는 분산의 제곱근이다.
기댓값을 알면 분산을 손쉽게 계산할 수 있다. (* 분산의 계산식 : Var(X) = E(X^2) - (E(X))^2 )
표준편차의 단위는 확률변수의 단위와 동일하다. 분산보다 퍼진 정도를 측정하는데 더 적절하다.
두 확률변수의 결합분포
확률변수를 통한 자료에서도 두 개 이상의 사건 간에 관련성을 확인하고자 한다. 두 개의 확률변수 X, Y의 결합확률분포란 X가 취하는 값과 Y가 취하는 값의 각 쌍에 대응하는 확률을 말한다. 두 개의 확률변수가 이산일 경우에 X가 취하는 값을 x1, x2,..., x_m이라 하고, Y가 취하는 값을 y1, y2,..., y_n이라고 할 때 X와 Y의 결합확률분포는 모든 1<=i,j<=m,n에 대하여 아래와 같이 표현할 수 있다. 이전에 배웠던 분할표와 동일하다.
주변확률분포는 각 행이나 열의 합에 의해 결정한다. 확률분포 중 2개 이상의 확률변수에 대한 분포가 결합확률분포이고 그 안에서 행과 열에 대한 합을 보이는 것이 주변확률분포로 구분하면 되겠다. 이러한 주변확률분포는 X, Y가 함께 관계되는 경우가 아니고 두 변수중 하나만이 문제가 되는 경우의 확률, 기댓값, 표준편차 등을 계산하는 데 이용하게 된다.
두 개의 확률변수의 합의 기댓값은 각각의 기댓값의 합으로 표시된다. 이는 확률변수가 셋 이상일 때에도 성립된다. 즉 확률 변수들이 합의 기댓값은 각각의 기댓값들의 합과 같다.
공분산과 상관계수
공분산은 두 개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타내 주는 척도로서 (X-mu_X)*(Y-mu_Y)의 기댓값으로 정의된다. 공분산의 양/음에 따라 정비례하는지 반비례하는지의 정도를 나타낸다. 느꼈겠지만 3,4장에서 배운 것들을 확률을 통해 배운 확률변수 자료에 동일하게 적용된다.
공분산은 X, Y의 관계에 영향을 받을 뿐 아니라 그것들이 퍼져 있는 정도에도 영향을 받게 된다. 이러한 공분산의 특징을 제거하고 두 확률변수의 관계를 측정하는 척도로서 제안된 것이 상관계수이다. 이것은 두 확률변수의 공분산을 각각의 표준편차의 곱으로 나누어 준 것으로 정의된다. 여전히 두 변수간 그 직선관계를 보여준다.
두 확률변수의 독립성
확률의 독립과 동일하게 확률변수 X, Y가 독립이 되기 위해서는 P [X=xi, Y=yj] = P[X=xi]*P[Y=yj]가 성립해야 한다. 두 확률변수 X, Y가 서로 독립일 때 E(XY)=E(X)*E(Y)가 성립한다. 이 식으로부터 독립성은 공분산과 상관계수를 0으로 만들어준다.
<정리>
확률변수 X, Y의 독립 : P[X=xi,Y=yj] = P[X=xi]*P[Y=yj]
위 조건 만족 시,
(1) E(XY)=E(X)*E(Y) 성립
(2) 공분산, 상관계수는 0이다.
두 확률변수의 합/차에 대한 기댓값도 동일하니 아래와 같이 추가 정리한다.
Var(X+Y) = Var(X) + 2Cov(X,Y) + Var(Y)
Var(X-Y) = Var(X) - 2Cov(X,Y) + Var(Y)
(* X, Y 간 독립일 경우, Var(X+Y) = Var(X-Y) = Var(X)+Var(Y))
한 줄 요약
확률변수 자료를 통한 3, 4장 동일함.
(ex. 히스토그램, 중간 척도(평균), 퍼진 정도(분산), 2개 변수요약(분할표), 2개 변수간 관계도(상관계수), 독립성, 합차의 기댓값)
'@ '통계학' 당주힘실' 카테고리의 다른 글
[당주힘실 통계학] 8. 정규분포_실제로는 연속적이다 (0) | 2022.08.18 |
---|---|
[당주힘실 통계학] 7. 이항분포와 그에 관련된 분포_베르누이, 비복원, 연속 (0) | 2022.08.16 |
[당주힘실 통계학] 5. 확률_될 비율 (0) | 2022.08.16 |
[당주힘실 통계학] 4. 두 변수 자료의 요약 (0) | 2022.08.16 |
[당주힘실 통계학] 3. 연속형 자료의 요약_객관성 확보 (0) | 2022.08.11 |
댓글