중심극한정리
1. 본문
中心極限定理
'''C'''entral '''L'''imit '''T'''heorem(CLT)
표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규 분포에 가까워진다. 이때 표본 평균의 평균은 모집단의 모 평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차를 표본 크기의 제곱근으로 나눈 것과 같다.
더 복잡한 버전으로는 i.i.d. 가정을 적절히 약화시킨 Lindberg CLT나 Lyapunov CLT가 있으나, 학부 수업 수준에서는 상기한 결과만 알아도 충분하다. 중심극한정리는 큰 수의 법칙과 함께 통계학의 뼈대를 이룬다고 할 수 있으며, 왜 정규분포가 중요하게 다뤄지는지 하나의 근거를 제시한다.서로 독립이며 동일한 분포를 따르는(i.i.d.[1]
) 확률변수 $$X_1, X_2, \cdots , X_n$$에 대해, 각각의 평균은 $$E(X_i) = \mu$$이고 각각의 표준편차는 $$\sigma$$라 하자. $$\xi_n = \displaystyle \frac{\sum_{i=1}^{n}X_i - n\mu}{\sqrt{n}\sigma}$$ 라 둘 때, $$\xi_n$$은 표준정규분포로 분포수렴한다.
이 정리의 놀라운 점은, i.i.d. 가정이 성립하고 평균, 표준편차만 알고 있다면 $$X_i$$의 분포 자체에 대한 어떤 정보도 없더라도[2] $$\xi_n$$의 분포를 점근적으로 알 수 있다는 점이다. 대부분의 점근적인 검정들은 CLT를 기반으로 한다.
큰 수의 법칙과는 상보적인 관계에 가까운데, 확률수렴이 분포수렴보다 더 강력한 개념이기 때문에[3] 큰 수의 법칙이 더 강력한 결과라고 오해할 수도 있으나, 중심극한정리는 점근적인 분포가 정규확률분포라는 추가적인 정보까지 제시해주기 때문에 두 법칙 간에 상하관계가 존재한다고 할 수는 없다. 큰 수의 법칙은 표본평균이 모평균으로 확률수렴한다는 이야기이며, 중심극한정리는 표본평균의 분포가 "어떤 모양"을 가지고 수렴하는지에 관해 이야기하는 것이 그 핵심이다. 표본평균이 모평균에 얼마나 빠르게 수렴하는지, 그 수렴 속도에 관해 이야기하는 법칙은 반복된 로그의 법칙 (Law of iterated logarithm)이라고 불린다.
기초통계학만 배워도 제시되는 법칙이나, 증명은 상당히 까다롭고 대개 학부 3학년 정도에 수리통계학 수업에서 더 강한 조건[4] 이 주어졌을 때의 증명을 배우게 된다. 일반적인 경우의 완전한 증명은 대학원 수준의 확률론에서 다룬다.
예를 들어 모집단의 분포가 일자형이라고 하자. "주사위를 한 번 던져서 나오는 수" 라는 변수가 있다고 하면 이 변수의 분포는 평평할 것이다. 어떤 특정한 수가 더 자주 나오는 게 아니라 1부터 6까지의 수가 모두 똑같은 확률로 나오니까. 자 이제 표본을 채집해 보자. "주사위 한 번 던져서 나오는 수" 를 50번 (n=50) 채집해서 표본 하나를 구성한다고 하자. 그리고 각 표본에서 평균값을 구한다. 그러면 예를들어 표본1 의 평균값은 3.21, 표본2 의 평균값은 3.56, 표본3 의 평균값은 3.40, 뭐 이런 식으로 나올 것이다. 표본을 한 5000개 정도 뽑아서 표본 평균의 분포를 그래프로 그려보면 n이 너무 작지 않은 한 (보통 30 미만은 너무 작다고 친다) 그 형태가 정규분포와 비슷하다는 거다.
수학적으로 이야기하면 독립인 확률변수들의 평균의 분포가 정규분포에 수렴한다는 이야기로[5] , 이를 '''중심극한정리'''(Central Limit Theorem)라 부른다. 이항분포 B(n,p)가 정규분포 N(np, npq)로 수렴한다는 내용은 이보다 이전에 라플라스(Laplace, Pierre-Simon)가 증명하였고, 이 버전을 "라플라스의 정리"라 부르는 경우도 있다. 물론 이를 일반화하여 현재의 중심극한정리를 정립한 것은 가우스이다.
이 중심극한정리가 통계적 유의성 검정을 위한 이론적 토대가 된다. 예를 들어 채집한 표본의 평균값이 어떤 특정한 값에 비해 통계적으로 유의한 정도로 더 큰지 혹은 더 작은지를 검토한다고 할 때, 표본평균의 분포가 대략 정규분포를 이룬다는 전제 (=중심극한정리) 가 있기 때문에 채집한 표본의 값이 이론적으로 전개된 표본평균 분포상대에 비추어 봤을 때 나올 확률이 5% (통상적으로 상정되는 유의기준) 미만인지를 검토할 수 있는 것이다.
2. 증명
$$\mathrm E(\bar X)=\mathrm E\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1n\{\mathrm E(X_1)+\mathrm E(X_2)+\mathrm E(X_3)+\cdots+\mathrm E(X_n)\}\\=\dfrac1n×n\mathrm E(X)=m$$
$$\mathrm V(\bar X)=\mathrm V\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1{n^2}\{\mathrm V(X_1)+\mathrm V(X_2)+\mathrm V(X_3)+\cdots+\mathrm V(X_n)\}\\=\dfrac1{n^2}×n\mathrm V(X)=\dfrac{\sigma^2}n$$[A]
$$\therefore\sigma(\bar X)=\dfrac\sigma{\sqrt n}$$
$$M_{\frac{\sqrt n(\bar X-m)}\sigma}(t)=\mathrm E\left(\exp\left(\dfrac{(X_1-m)+(X_2-m)+\cdots+(X_n-m)}{\sigma\sqrt n}t\right)\right)=\mathrm E\left(\exp\left(\dfrac{X_1-m}{\sigma\sqrt n}t\right)\right)\mathrm E\left(\exp\left(\dfrac{X_2-m}{\sigma\sqrt n}t\right)\right)\cdots\mathrm E\left(\exp\left(\dfrac{X_n-m}{\sigma\sqrt n}t\right)\right)$$[A]
$$=\left\{\mathrm E\left(\exp\left(\dfrac{X-m}{\sigma\sqrt n}t\right)\right)\right\}^n\\=\left\{M_{\frac{X-m}\sigma}\left(\dfrac t{\sqrt n}\right)\right\}^n$$
$$\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-m)}\sigma}(t)\\=\exp\left(\displaystyle\lim_{n\to\infty}n\ln M_{\frac{X-m}\sigma}\left(\dfrac t{\sqrt n}\right)\right)$$
여기서 $$h=\dfrac1{\sqrt n}$$이라 하면 $$n\to\infty$$일 때 $$h\to0$$이므로
$$=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\ln M_{\frac{X-m}\sigma}(th)}{h^2}\right)$$
여기서 $$\displaystyle\lim_{h\to0}M_{\frac{X-m}\sigma}(th)=1$$이므로 로피탈 정리에 의해
$$=\exp\left(\displaystyle\lim_{h\to0}\dfrac{tM_{\frac{X-m}\sigma}'(th)}{2hM_{\frac{X-m}\sigma}(th)}\right)\\=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-m}\sigma}'(th)-0}{h}\right)$$
여기서 $$\displaystyle\lim_{h\to0}M_{\frac{X-m}\sigma}'(th)=0$$이므로 미분계수의 정의에 의해[6]
$$=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-m}\sigma}'(t×h)-M_{\frac{X-m}\sigma}'(t×0)}{h}\right)\\=\exp\left(\dfrac t2×tM_{\frac{X-m}\sigma}''(t×0)\right)$$
여기서 $$M_{\frac{X-m}\sigma}''(0)=\mathrm E\left(\left(\dfrac{X-m}\sigma\right)^2\right)\\=\mathrm V\left(\dfrac{X-m}\sigma\right)+\left\{\mathrm E\left(\dfrac{X-m}\sigma\right)\right\}^2\\=1+0^2=1\\\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-m)}\sigma}(t)=e^{\frac{t^2}2}$$로 표준정규분포의 적률생성함수와 같은 형태이다. 즉, $$n\to\infty$$일 때 $$\dfrac{\sqrt n(\bar X-m)}\sigma\sim\mathrm N(0,1)$$이므로 $$\bar X\sim\mathrm N(m,\dfrac{\sigma^2}n)$$이다.
[자료출처]
3. 관련 문서
[1] '''i'''ndependent and '''i'''dentically '''d'''istributed[2] 위를 보면 알 수 있겠지만 $$X_i$$가 어떠한 분포를 따라야 한다는 제약이 없다.[3] 미분가능하면 연속적이듯이, 확률수렴하면 분포수렴한다.[4] 주로 적률생성함수가 존재함을 가정한다. 그 이유는 아래 증명에서 볼 수 있듯이 증명에 적률생성함수를 사용하기 때문.[5] 엄밀히 말하면: 같은 분포를 따르고 서로 독립인 확률변수 X1 , X2 , ..., Xn 에 대해 이들의 평균 X = (X1 + X2 + ... + Xn)/n 을 평균이 0, 분산이 1이 되게 표준화한 Z=(X-μ)/σ√n의 분포는 n이 무한대로 갈 때 정규분포에 수렴한다.[A] A B 각각의 Xk는 독립(복원추출)이므로 분리할 수 있다[6] 로피탈 정리를 또 써도 된다.[자료출처] https://m.blog.naver.com/mykepzzang/220851280035