표본분포

 



1. 개요
2. 표본평균
2.1. 성질
3. 표본분산
4. 표본비율
4.1. 이항 모집단


1. 개요


sampling distribution ・
'''표본분포'''란, '표본통계량(sample statistic)'의 확률 분포이다. 표본통계량이란 표본평균이나 표본분산처럼 표본의 특성을 나타내는 대푯값을 말한다.
모집단의 특성을 나타내는 대푯값인 모수(parameter)는 일정한 값을 갖지만 제대로 알려져 있지 않아서, 표본통계량을 통해 모수를 추측하는 것이다. 다만 어디까지나 표본통계량은 표본을 추출할 때마다 얼마든지 다른 값이 나올 수 있는 불확실한 확률 변수이기 때문에 모수를 정확히 알아낼 수는 없다.

2. 표본평균


$$X_1,\,X_2,\,\cdots\,X_n$$이 평균이 $$\mu$$이고 분산이 $$\sigma^2$$인 모집단에서 추출하는 표본이라고 하면 표본평균 $$\bar X$$의 분포는 다음과 같이 구한다.
$$E(\bar X)=E\!\left(\displaystyle\frac{\sum X_i}{N}\right)=\dfrac{E(X_1)+E(X_2)+\cdots+E(X_n)}n=\mu$$
$${\rm Var}(\bar X)={\rm Var}\!\left(\displaystyle\frac{\sum X_i}{N}\right)=\dfrac{{\rm Var}(X_1)+{\rm Var}(X_2)+\cdots+{\rm Var}(X_n)}{n^2}=\dfrac{\sigma^2}n$$
따라서 표본평균의 평균은 모평균이며, 표본평균의 분산은 모분산을 표본의 개수로 나눈 값이다. 이에 따라 $$\bar X$$는 기댓값이 $$\mu$$이고 분산이 $$\sigma^2/n$$인 분포를 따른다.
나아가, 표본분산은 $$\sigma^2/n$$이므로 표본의 개수 $$n$$이 커질수록 0에 접근한다.

2.1. 성질


중심 극한 정리에 의하여, 평균이 $$\mu$$이고 분산이 $$\sigma^2$$인 모집단이 어떤 분포를 따르든, 이 모집단에서 추출한 표본평균의 분포는 표본의 크기 $$n$$이 커질수록 $$\bar X$$가 정규분포로 접근한다. 따라서 다음이 성립한다.
$$n\to\infty\quad\rightarrow\quad\bar X\sim N(\mu,\,\sigma^2),\;\dfrac{\bar X-\mu}{\sigma/\sqrt{n}}\sim(0,\,1)$$

3. 표본분산


$$X_1,\,X_2,\,\cdots\,X_n$$이 평균이 $$\mu$$이고 분산이 $$\sigma^2$$인 모집단에서 추출하는 표본이라고 하면 다음이 성립한다. 카이제곱분포에 관한 배경지식이 필요하다.
$$\begin{aligned}E(s^2)&=E\left(\dfrac{\sigma^2}{n-1}\chi^2\right)\,\left(\because\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}\right)\\&=\dfrac{\sigma^2}{n-1}E(\chi^2)=\sigma^2\,(\because E(\chi^2_{n-1})=v=n-1)\end{aligned}$$
$$\begin{aligned}{\rm Var}(s^2)&={\rm Var}\left(\dfrac{\sigma^2}{n-1}\chi^2\right)=\dfrac{\sigma^4}{(n-1)^2}{\rm Var}(\chi^2)\\&=\dfrac{2\sigma^4}{n-1}\,(\because {\rm Var}(\chi^2)=2v=2(n-1))\end{aligned}$$
여기에서 표본분산을 구할 때 표본의 개수 $$n$$이 아니라 $$n-1$$로 나누는 이유가 나온다. $$n-1$$로 나눈 값을 표본분산으로 정의하면 '''표본분산의 평균이 정확히 모분산이 된다.''' 표본평균의 평균이 모평균이 된다면, 표본분산의 평균 역시 모분산이 되도록 함이 타당하므로, $$n$$이 아닌 $$n-1$$로 나누는 것이다. 혹은 다음과 같이 볼 수도 있다.
$$E(s^2)=E\left[\dfrac{\sum(X_i-\bar X)^2}{n-1}\right]=\dfrac{E[\sum(X_i-\bar X)^2]}{n-1}$$이고, 마지막 식의 분자는 다음과 같이 계산된다.
$$\begin{aligned}E\left[\sum(X_i-\bar X)^2\right]&=E\left[\sum\{(X_i-\mu)-(\bar X-\mu)\}^2\right]\\&=E\left[\sum(X_i-\mu)^2\right]+E\left[\sum(\bar X-\mu)^2\right]-2E\left[\sum(X_i-\mu)(\bar X-\mu)\right]\end{aligned}$$
여기에서 $$E\left[\sum(\bar X-\mu)^2\right]=nE\left[(\bar X-\mu)^2\right]$$이고
$$\begin{aligned}-2E\left[\sum(X_i-\mu)(\bar X-\mu)\right]&=-2E\left[(\bar X-\mu)\sum(X_i-\mu)\right]\\&=-2E\left[(\bar X-\mu)(n\bar X-n\mu)\right]\\&=-2nE\left[(\bar X-\mu)^2\right]\end{aligned}$$
$$\begin{aligned}&\therefore E\left[\sum(X_i-\mu)^2\right]+E\left[\sum(\bar X-\mu)^2\right]-2E\left[\sum(X_i-\mu)(\bar X-\mu)\right]\\&=E\left[\sum(X_i-\mu)^2\right]+nE\left[(\bar X-\mu)^2\right]-2nE\left[(\bar X-\mu)^2\right]\\&=E\left[\sum(X_i-\mu)^2\right]-nE\left[(\bar X-\mu)^2\right]\\&=E[(X_1-\mu)^2]+E[(X_2-\mu)^2]+\cdots+E[(X_n-\mu)^2]-n{\rm Var}(X)\\&={\rm Var}(X_1)+{\rm Var}(X_2)+\cdots+{\rm Var}(X_n)-\sigma^2\\&=(n-1)\sigma^2\end{aligned}\\\therefore E(s^2)=\dfrac{E[\sum(X_i-\bar X)^2]}{n-1}=\dfrac{(n-1)\sigma^2}{n-1}=\sigma^2$$

4. 표본비율


표본비율은 어떤 모집단에서 추출한 표본 중에서 특정 범주에 속하는 표본의 비율을 말한다. 예를 들어 모집단 학생 100명 중에서 10명을 표본으로 추출하였을 때, 남학생이 3명이라면 남학생의 표본비율은 $$0.3$$이다. 모집단의 비율인 모비율을 $$p$$로 표기하는데, 이에 대응하여 표본비율은 $$\hat p$$으로 표기하고 '피 햇'으로 읽는다.

4.1. 이항 모집단


모집단이 이항분포를 따를 경우, 표본비율의 분포는 다음과 같이 구한다.
먼저 어떤 이항분포에서 이루어지는 시행의 성공 확률(비율)을 $$p$$, 실패 확률(비율)을 $$1-p$$라 하자. 그러면 이 이항분포는 평균이 $$np$$이고 분산이 $$np(1-p)$$이다. 또한, 표본 $$n$$개를 추출하여 실시한 시행의 성공 횟수를 $$X$$라 하면 $$\hat p=\dfrac Xn$$이다. 그러면 다음이 성립한다.
$$E(\hat p)=E\left(\dfrac Xn\right)=\dfrac{np}n=p$$
$${\rm Var}(\hat p)={\rm Var}\left(\dfrac Xn\right)=\dfrac{np(1-p)}{n^2}=\dfrac{p(1-p)}n$$
또한 표본비율의 분포는 '''정규분포에 근사한다.'''
$$\hat p\sim N\biggr[p,\,\dfrac{p(1-p)}n)][math(\biggr]$$
$$Z=\dfrac{\hat p-p}{\sqrt{\dfrac{p(1-p)}n}}\sim(0,\,1)$$