확률분포
確率分布 / probability distribution
1. 개념
시행에서 확률 변수(random variable)가 어떤 값을 가질지에 대한 확률을 나타낸다. 확률 변수가 취하는 값들의 집합이 자연수의 부분 집합과 일대일 대응 된다면 이산 확률 분포, 확률 변수가 취하는 값들의 집합이 실수의 구간을 이루면 연속 확률 분포가 된다.
2. 확률 분포의 종류
확률 변수의 종류에 따라 크게 이산 확률 분포와 연속 확률 분포로 나뉜다.
2.1. 이산 확률 분포
이산 확률 분포(discrete probability distribution)
확률 질량 함수(probability mass function)
2.1.1. 이항 분포
이항 분포 binomial distribution
$$n$$번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 $$p$$일 때의 확률 분포이다. $$n$$번의 시행 중 성공 횟수가 $$x$$회 일 때,
$$ b(x;n,p) = \begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} $$로 표현한다.
$$n$$이 커지면 이항분포는 폭이 점점 좁아지며[1] 정규분포에 근접해 간다. $$p$$가 0.5에 근접해 가도 마찬가지이다. 보통 np≥10이면 정규분포라고 쳐준다. 고등학교에서는 이항분포를 이루는 각 값들의 평균,표준편차를 구하는 법을 알려주는데[2] , 보통 (평균)$$=np$$이고, (표준편차)$$=\sqrt{np(1-p)}$$이다.[3]
참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다.
2.1.2. 푸아송 분포
2.1.3. 기하 분포
기하 분포 geometric distribution
성공 확률이 p인 독립 베르누이 시행에서 최초로 성공인 시행이 나오기까지 시도한 횟수를 확률변수로 갖는 확률분포이며,
$$ g(x:p) = (1-p)^{x-1}p $$
로 표현한다.
기하분포의 평균은 $$1 \over p$$, 분산은 $${1-p} \over {p^2}$$이다. 즉, 성공 확률이 $$1 \over n$$인 아이템 뽑기 게임에서 아이템을 하나 획득하기 위해서는 대략 $$n$$회 정도의 시도가 필요하다고 예상할 수 있다는 것을 의미한다.
2.1.4. 초기하 분포
초기하 분포 hypergeometric distribution
모집단에서 r개를 비복원추출 하려 할 때, 모집단에서 추출한 n개 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이다.
2.1.5. 음이항 분포
"음이항 분포" 또는 "음의 이항 분포"는 성공 확률이 p인 독립 베르누이 시행에서 x회 동안 k번 성공할 때의 확률변수를 나타내는 확률분포이며,
$$ b^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} $$로 표현한다.
2.2. 연속 확률 분포
- 표본 분포(sampling distribution)
- 정규 분포(normal distribution)
- 표준 정규 분포(z-분포, standard normal distribution)
- 스튜던트 t-분포(t-분포, Student's t-distribution)
- F-분포(F-distribution)
- 카이-제곱 분포(χ2 분포, chi-squared distribution)
- 지수 분포: 보통 자연로그의 밑 [math(e)]을 취하는 함수를 매클로린 급수를 적용해서 사용한다. 그런 경우에는 평균과 표준편차가 x로 같다.
- 레일리 분포
- 라이시안 분포
- 감마 분포
- 파레토 분포
3. 확률 분포의 기댓값과 분산
기댓값이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이다. 확률 변수 X의 기대값은 E(X)라고 표기하고 다음과 같이 계산한다. 다만 아래 사항은 확률 질량 함수에 사용하는 계산법이니 확률 밀도 함수 상대로는 적분을 사용하도록 하자.
$$\displaystyle \text{E}\left(X\right)=\sum_{i}{x_i P\left(X=x_i\right)}$$
분산이란 확률 변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다.
$$\displaystyle \text{V}\left(X\right)=\sum_{i}{\left(x_i-m\right)^2P\left(X=x_i\right)}=\text{E}\left(X^2\right)-\left\{\text{E}\left(X\right)\right\}^2\,\,\,\left(m=\text{E}\left(X\right)\right)$$
표준 편차는 분산에 제곱근을 하여 계산한다.
$$\sigma \left(X\right)=\sqrt {\text{V}\left(X\right)}$$
분산과 표준 편차 모두 확률 변수 값들이 기대치에서 흩어진 정도를 나타내기 때문에 '''산포도'''라고 총칭하기도 한다.
4. 누적 분포 함수
누적 분포 함수(cumulative distribution function, cdf)
어떤 확률 분포에 대하여 확률 변수가 특정 값보다 작거나 같은 확률을 의미한다.