학업

<수학 유형 정리> 이산확률분포 총 정리

치료킷 2023. 11. 1. 00:53
반응형

이산확률분포 정리

확률분포는 확률변수가 어떤 형태인지에 따라 이산확률분포와 연속확률분포로 나뉩니다. 이름에서 드러나다시피 이산확률분포는 확률변수가 이산적으로 즉, 셀 수 있는 형태일때의 확률분포를 말하고 연속확률분포는 확률변수를 셀 수 없는 연속적인 범위로 주어졌을 때의 확률분포를 말합니다.

지금부터 두 확률분포 중 이산확률분포를 알아보도록 하겠습니다.

확률과 통계 중 이산확률분포

1. 개요

우선 확률분포를 언급하기 전에  각 분포별로 우리가 해야할것에 대해 알아보겠습니다. 우리가 확률분포를 구하는 이유는 우리의 행위가 어떤 값(=확률변수)들을 가지고 그 값이 나올 확률이 얼마나되는지를 알기 위해서 입니다. 다시 말하면 어떤 행위에 대해 벌어질 일들을 나열하고 각 경우별로 수학적인 가능성을 알고 싶은겁니다. 그 행위에 따라서 이산확률분포가 되기도하고 연속확률분포가 되기도 하는 것이죠. 

자, 그런데 이 분포를 모두 알면 좋겠지만 우리는 그렇게 한가하지도 않고 오히려 너무 많은 정보는 우리를 혼란스럽게 합니다. 그래서 나오는 개념이 바로 기댓값과 분산(혹은 표준편차)입니다.

 

2. 기댓값과 표준편차

우리는 행위에 대한 모든 경우를 알고싶어 합니다. 그러나 사건의 수가 많을수록 더 복잡할수록 모든 경우를 아는 것은 쉽지 않습니다. 큰 효용도 없고요.

예를 들자면 이런겁니다. 우리나라의 인구분포가 궁금한 사람이 있다고 가정합시다. 당연히 가장 정확한 정보는 각 집집마다 몇명이 사는지를 모두 알 수 있는 지도를 준비하는 것입니다. 현실적으로 불가능하지만서도 얼핏 생각해봐도 그 지도는 매우 클 것이고 우리는 그걸 한눈에 볼 능력도 없을 것입니다. 이럴때 필요한 것이 요약본이겠죠. 서울은 인구 900만, 경기도는 1,100만 이런식으로 지역별로 인구를 추산해서 듣는다면 대략적인 우리나라 인구분포를 알 수 있을것입니다. 

조금만 더 근접한 예시를 들어보겠습니다. 어느 학교 학생들의 수학 학업성취도를 판단하기 위해서는 가장 좋은게 학생별 수학 점수를 모두 나열하는 것입니다. 그러나 한명한명 점수만 들여다보고 있으면 그 학교의 학업성취도가 어느정도인지 판단하기에 어려울 것입니다. 그럴때 다들 떠오르는 숫자가 하나 있죠. 바로 평균입니다. 학생들의 수학점수 평균을 계산하면 "대략" 어느정도 점수인지를 알 수 있을 것입니다. 

확률분포에도 이런 요약된 숫자가 필요합니다. 모든 것을 언제나 나열할 수는 없는 노릇이기에 그 확률분포를 잘 표현할 수 있는 대표적인 숫자를 몇개 정했습니다. 그것이 바로 기댓값과 표준편차입니다.

기댓값은 우리가 생각하는 평균과 동일하고 표준편차의 경우 평균으로부터 떨어진 거리라고 생각하시면 될 것 같습니다.

이제 이 값들은 이산확률분포의 대표적인 분포를 대상으로 구해보겠습니다.

 

3. 이항분포

이산확률분포의 가장 대표적인 분포입니다. 동전을 n번 던지는 행위를 생각해봅시다. 그리고 n번을 던지는 동안 앞면이 나온 횟수를 확률변수 X라고 정의하겠습니다. 그렇다면 X가 가질 수 있는 값은 바로 0부터 n까지 일것입니다. 왜냐하면 n번 던지는 동안 동전이 모두 뒷면만 나올 수 있기 때문입니다. 반대로 모두 앞면만 나올 수도 있습니다. 그렇기때문에 확률번수 X는 0부터 n까지의 값을 가질 수 있습니다.

확률변수는 정해졌고 이제 해당하는 확률을 구해봅시다. 일반적인 상황을 구하기 위해 X 값이 r인 케이스(확률변수 X=r)를 생각해봅시다. 앞면에 r번 나왔고 뒷면이  n-r번 나올 상황입니다. n번 던지는 동안 앞면과 뒷면이 나오는 순서가 있었을 것입니다. 경우의 수 단원에서 잘 배우셨다면 P(X=r) = nCr*(1/2)^r*(1/2)^(n-r) 임을 알 수 있습니다. 우리는 이런 상황을 바로 이항분포라고 부릅니다.

이항분포가 되기 위해서는 조건이 필요합니다. 바로 ①같은 행위를 반복(n)할것 ②반복하는 행위에 대한 성공확률(p)이 존재할 것이 조건입니다. 

이제 이 경우로 확률분포를 표로 그린다고 생각해보십시오. 우선 n이 얼미인지도 모르는데 그려야한다는 것입니다. 또한 n이 크다면 그 표를 모두 그리는 것은 무리가 있을 것입니다. 그렇기에 기댓값과 표준편차를 구할 필요성이 생겼습니다.

 

이항분포는 워낙 유명하고 자주나오기 때문에 사람들은 이항분포에 특별한 기호를 마련했습니다. 바로 B(n,p) 입니다. n은 같은 행위를 반복하는 수이고 p는 반복하는 행위에 대한 성공확률을 의미합니다. 이 두가지 요소만 있으면 이항분포는 자동적으로 세팅됩니다. 이항분포의 기댓값은 np, 표준편차는 sqrt(np(1-p))입니다. 

 

4. 결론

오늘은 이산확률분포 중 가장 대표적인 분포인 이항분포에 대해서 알아보았습니다. 이항분포는 양자택일의 결과(=확률 p)가 나오는 행위를 반복(=n번)할때 확률p가 나오는 횟수를 확률변수로 하는 분포입니다. 그리고 해당 분포의 기댓값은 np, 표준편차는 sqrt(np(1-p))입니다. 

반응형