푸아송 분포

 



1. 개요
2. 조건
3. 유도 과정(푸아송 극한 정리)
4. 의미
4.1. 예제
6. 누적분포함수
8. 관련 문서


1. 개요


프랑스수학자 시메옹 드니 푸아송(Siméon Denis Poisson)이 1837년에 자신의 저서 『민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 관한 서문』(Researches sur la probabilité des judgements en maitière criminelle et en matière civile)에서 처음 소개한 확률 분포. 그의 이름을 따서 '''푸아송 분포'''(Poisson distribution)라고 한다. 표기에 따라서는 '''포아송 분포'''라고도 한다.
단위시간 동안 혹은 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 확률분포이며, nn이 충분히 크고 pp가 충분히 작아서 npnp의 값이 적당할 때의 이항 분포의 값을 근사적으로 구할 수 있다. 이항 분포에서 np=λnp=\lambda를 유지하면서 nn\to\infty일 때, 그 분포는 포아송 분포에 수렴한다. 이에 따라 nnpp의 각각의 값은 모르지만 np=λnp=\lambda의 값은 알 때 푸아송 분포를 사용하여 이항 분포의 근사치를 알 수 있다.
후술되어 있듯 λ\lambda는 곧 푸아송 분포의 평균과 분산이 되며, '람다'로 읽는 그리스 문자이다.

2. 조건


푸아송 분포로 유의미한 근삿값을 얻으려면 다음 세 가지 조건을 만족시켜야 한다.
  • 주어진 시간 동안 일어나는 사건의 횟수는 다른 시간에서 일어나는 사건의 횟수와 독립이어야 한다.
  • 주어진 시간을 더 짧은 단위로 나눴을 때, 그 짧은 시간 내에서 사건이 두 번 이상 발생할 확률은 무시할 만큼 매우 작아야 한다.
  • 주어진 시간을 더 짧은 단위로 나눴을 때, 시간의 길이와 사건이 한 번 발생할 확률은 비례한다.
간단히 말하자면, n20n\geq 20이고 p0.05p\leq 0.05이면 어느 정도 충분하고, n100n\geq 100이고 np10np\leq 10이면 매우 훌륭하다.

3. 유도 과정(푸아송 극한 정리)


이항 분포에서 nn\to\infty, p0p\to 0, npλnp\to\lambda이면
b(x;n,p)=(nx)px(1p)nx=n(n1)(nx+1)x!(λn)x​​(1λn)nx=1x!n(n1)(nx+1)nxλx{(1λn)nλ}λ​​​​(1λn)x\begin{aligned}b(x;n,p)&=\binom{n}{x}p^x(1-p)^{n-x}\\&=\dfrac{n(n-1)\cdots(n-x+1)}{x!}\left(\dfrac{\lambda}n\right)^x\!\!\left(1-\dfrac{\lambda}n\right)^{n-x}\\&=\dfrac1{x!}\cdot\dfrac{n(n-1)\cdots(n-x+1)}{n^x}\lambda^x\left\{\left(1-\dfrac\lambda{n}\right)^{-\dfrac{n}\lambda}\right\}^{-\lambda}\!\!\!\!\left(1-\dfrac\lambda{n}\right)^{-x}\end{aligned}
''''''
* n(n1)(nx+1)n(n-1)\cdots(n-x+1)에서 곱해진 항의 개수는 xx개이므로 limnn(n1)(nx+1)nx=1\displaystyle\lim_{n\to\infty}\dfrac{n(n-1)\cdots(n-x+1)}{n^x}=1
* nλ=t-\dfrac{n}\lambda=t로 치환하면 limnt=\displaystyle\lim_{n\to\infty}t=-\infty이므로 limn(1λn)nλ=limt(1+1t)t=\displaystyle\lim_{n\to\infty}\left(1-\dfrac\lambda{n}\right)^{-\dfrac{n}{\lambda}}=\lim_{t\to-\infty}\left(1+\dfrac1t\right)^t= '''[math(e)]'''
* limn(1λn)x=1\displaystyle\lim_{n\to\infty}\left(1-\dfrac\lambda{n}\right)^{-x}=1
따라서 nn\to\infty, p0p\to 0, npλnp\to\lambda이면 다음이 성립한다. 이를 '''푸아송 극한 정리'''라고 한다.
b(x;n,p)λxeλx!b(x;n,p)\approx\dfrac{\lambda^x e^{-\lambda}}{x!}
이렇게 유도되는 푸아송 분포를 Poisson의 머리글자를 따서 다음과 같이 표기한다.
p(x:λ)=λxeλx!p(x:\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!}
λ\lambda를 '''모수'''라고 하며, 확률변수 XX가 모수 λ\lambda인 푸아송 분포를 따르면
XPoi(λ)X\sim{\rm Poi}(\lambda)
로 나타내고 XX를 모수가 λ\lambda인 '''푸아송 변수'''라고 한다.

4. 의미


p(x:λ)=λxeλx!p(x:\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!}
이렇게 유도된 푸아송 분포의 확률변수 XX는 단위시간 혹은 단위공간 내의 발생 횟수이며, 이를 xx에 대입한다. 그리고 해당 단위시간 혹은 단위공간 내에서 평균적으로 발생하는 사건의 횟수를 λ\lambda에 대입하면 해당 확률을 구할 수 있다.

4.1. 예제


'''[문제]'''

어느 지하철역에는 5분마다 3명꼴로 승객이 온다. 지하철역에 오는 승객의 수가 푸아송 분포를 따를 때, 4분간 한 사람도 지하철역에 오지 않을 확률을 구하시오.
[풀이 보기]

5분마다 3명꼴로 승객이 오므로, 4분마다 2.4명꼴로 오는 셈이다. 여기에서 '4분'이 '단위시간'이 된다. 구하고자 하는 확률에서의 사건의 발생 횟수는 0이므로 x=0x=0, 단위시간(4분) 내에 발생하는 사건의 평균 횟수는 λ=2.4\lambda=2.4이므로 이를 푸아송 분포에 적용하면 확률은 다음과 같다.
e2.42.400!=e2.40.0907\dfrac{e^{-2.4}2.4^0}{0!}=e^{-2.4}\approx 0.0907

e2.42.400!=e2.40.0907\dfrac{e^{-2.4}2.4^0}{0!}=e^{-2.4}\approx 0.0907}}}}}}

5. 평균분산


우선 p(x:λ)=λxeλx!p(x:\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!}의 평균은 애초에 정한 바 그대로 np=λnp=\lambda이다.
p(x:λ)=λxeλx!p(x:\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!}의 분산은 다음과 같이 구한다. 본디 이항 분포의 분산은 np(1p)np(1-p)이므로
np(1p)=np=λ  (p0)np(1-p)=np=\lambda\;(\because p\to 0)
따라서 푸아송 분포의 평균과 분산은 λ\lambda로 같다.

6. 누적분포함수


eλi=0kλii!=Γ(k+1,λ)k!e^{-\lambda}\displaystyle\sum_{i=0}^{\lfloor k\rfloor} \frac{\lambda^i}{i!}=\frac{\Gamma(\lfloor k+1\rfloor, \lambda)}{\lfloor k\rfloor !}
단, Γ(x,y)\Gamma(x,y)불완전 감마 함수, x\lfloor x \rfloor최대 정수 함수이다.

7. 적률생성함수


MX(t)=E(etX)=x=0etxmxemx!=x=0(etm)xemx!=x=0(etm)xeetmeetmemx!=eetmemx=0(etm)xeetmx!=em(et1)\begin{aligned}M_X(t)&=E(e^{tX})\\&=\displaystyle\sum_{x=0}^\infty e^{tx}\dfrac{m^x e^{-m}}{x!}=\sum_{x=0}^\infty\dfrac{(e^tm)^x e^{-m}}{x!}\\&=\sum_{x=0}^\infty\dfrac{(e^tm)^x e^{-e^t m}e^{e^t m}e^{-m}}{x!}\\&=e^{e^t m}e^{-m}\sum_{x=0}^\infty\dfrac{(e^t m)^x e^{-e^t m}}{x!}\\&=e^{m(e^t-1)}\end{aligned}
따라서 푸아송 분포의 적률생성함수는 em(et1)e^{m(e^t-1)}이며, 이 함수를 통해 평균과 분산을 계산하면 다음과 같다.
MX(t)=em(et1)metMX(t)=em(et1)met+em(et1)(met)2\begin{aligned}M'_X(t)&=e^{m(e^t-1)}me^t\\M''_X(t)&=e^{m(e^t-1)}me^t+e^{m(e^t-1)}(me^t)^2\end{aligned}
E(X)=MX(0)=mE(X2)=MX(0)=m+m2Var(X)=E(X2){E(X)}2=m\begin{aligned}\therefore E(X)&=M'_X(0)=m\\E(X^2)&=M''_X(0)=m+m^2\\{\rm Var}(X)&=E(X^2)-\{E(X)\}^2=m\end{aligned}

8. 관련 문서


[각주]