추정(통계학)

1. 개요

2. 추정량·추정치

2.1. 불편추정량·편의추정량·편의

2.2. 유효추정량·평균제곱오차

2.2.1. 상대효율

2.3. 일치추정량

2.4. 충분추정량·충분성

3. 우선순위

3.1. 예시

1. 개요

estimation · 推定
통계학에서, 불완전한 데이터인 표본으로부터 전체 모집단에 대한 정보를 짐작하는 일. 이 문서에서는 통계학의 추정 이론을 다룬다.

2. 추정량·추정치

모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 '''추정량'''(estimator), 실제의 관찰값을 넣어 계산한 값을 '''추정치'''(estimate)라고 한다. 예를 들면 다음과 같다.

모수 $$\mu$$의 추정량은 $$\bar X=\dfrac{\sum X_i}n$$
모수 $$\sigma^2$$의 추정량은 $$s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1}$$
모수 $$p$$의 추정량은 $$\hat p=\dfrac{X}n$$

이때 구체적인 수치로 계산되어 나올 수 있는 $$\bar X=10$$, $$s^2=4$$, $$\hat p=0.2$$ 등은 추정치가 되는 것이다.
일반적으로 모수를 그리스 문자 [math(\theta)]로, 추정량을 $$\hat\theta$$으로, $$E(\hat\theta)=\bar{\hat\theta}$$로 표기한다. $$\hat\theta$$는 '세타 햇(theta hat)', $$\bar{\hat\theta}$$는 '세타 햇 바(theta hat bar)'로 읽는다.

2.1. 불편추정량·편의추정량·편의

분포의 평균값이 추정하려는 모수와 일치하는 추정량을 '''불편추정량'''(unbiased estimator), 그렇지 않은 추정량을 '''편의추정량'''(biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.

$$E(\hat\theta)=\theta$$이면 불편추정량
$$E(\hat\theta)\neq\theta$$이면 편의추정량

여기에서 $$E(\hat\theta)-\theta$$를 '''편의'''(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다.

$$\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu$$
$$\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2$$

이를 두고 '$$\bar X$$는 $$\mu$$의 불편추정량', '$$s^2$$은 $$\sigma^2$$의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 표본분포 참고.

2.2. 유효추정량·평균제곱오차

모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 '''유효추정량'''(relatively efficient estimator)을 '''최소분산불편추정량'''(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.

$$\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] $$

[1] 흔히 쓰는 '불편(不便)', '편의(便宜)'와 발음이 같아서 혼동하기 쉬운데, '편'은 便(편할 편)이 아니라 偏(치우칠 편)이다. 정확한 한자는 불편(不偏), 편의(偏倚)로, 각각 '치우치지 않았다', '치우쳤다'라는 뜻이다.

분류

이 식의 값을 '''평균제곱오차''' 또는 '''평균자승오차''' 또는 '''평균평방오차'''라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 '''MSE'''(mean squared error) 역시 많이 쓴다. $$\hat\theta$$의 MSE는 $$\rm{MSE}(\hat\theta)$$으로 표기한다.
MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.

$$\begin{aligned}E[(\hat\theta-\theta)^2]&=E[\{(\hat\theta-\bar{\hat\theta})+(\bar{\hat\theta}-\theta)\}^2]\\&=E[(\hat\theta-\bar{\hat\theta})^2]+E[(\bar{\hat\theta}-\theta)^2]+2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]\end{aligned}$$

여기에서 $$\bar{\hat\theta}$$와 $$\theta$$는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로

$$E[(\bar{\hat\theta}-\theta)^2]=(\bar{\hat\theta}-\theta)^2$$

분류

또한, $$\hat\theta-\bar{\hat\theta}$$는 $$\hat\theta$$의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.

$$2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 $$

분류

따라서 $${\rm MSE}$$를 다음과 같이 쓸 수 있다. 곧, $${\rm MSE}$$는 $$\hat\theta$$의 분산과 편의의 합이다.

$$\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned}$$

분류

불편추정량은 편의가 0이므로, 불편추정량의 $${\rm MSE}$$는 $$\hat\theta$$의 분산과 같다. 결국 이 $${\rm MSE}$$가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.

2.2.1. 상대효율

모수 $$\theta$$에 대한 두 추정량을 $$\hat\theta_1$$, $$\hat\theta_2$$라 할 때, 두 $${\rm MSE}$$의 비율

$$\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)}$$

분류

을 $$\hat\theta_1$$에 대한 $$\hat\theta_2$$의 '''상대효율'''(relative efficiency)이라고 하며 약어로 $$\rm RE$$로 표기한다. 상대효율은 다음과 같이 활용한다.

$$\rm RE>1$$이면 $$\hat\theta_2$$가 더 좋은 추정량
$$\rm RE<1$$이면 $$\hat\theta_1$$이 더 좋은 추정량

결국 이는 위에서 살펴본 두 $${\rm MSE}$$의 대소 판별과 다를 것이 없다.

2.3. 일치추정량

표본의 개수 $$n$$과 임의의 양의 상수 $$c$$에 대하여 다음이 성립할 때 $$\hat\theta$$은 $$\theta$$의 '''일치추정량'''(consistent estimator)이라고 한다.

$$\displaystyle\lim_{n\to\infty}P[|\hat\theta-\theta|\geq c]=0$$

분류

$$\theta=\mu$$인 경우를 예를 들어 다르게 설명하면, 표본의 개수 $$n$$이 커짐에 따라 표본평균 $$\bar X$$가 모평균 $$\mu$$에 확률적으로 수렴해 갈 때 $$\bar X$$는 $$\mu$$의 일치추정량이라고 한다.
또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.

$$\hat\theta$$가 불편추정량
$$\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0$$

불편추정량은 편의가 0이므로, $$\rm{MSE}(\hat\theta)=\rm{Var}(\hat\theta)$$이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다.

$$\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0$$[2]
\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2에서, 편의가 0이 아니면서 \displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 (\textsf{bias})^2\geq 0이므로 편의가 0이 아니라면 무조건 (\textsf{bias})^2>0일 수밖에 없다. 이런 상황에서 \displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0이 되려면 무조건 \rm{Var}(\hat\theta)

따라서, $$\bar X$$와 $$s^2$$은 앞서 밝혔듯이 불편추정량이며, $${\rm Var}(\bar X)={\sigma^2}/n$$이고 $${\rm Var}(s^2)={2\sigma^4}/({n-1})$$이므로 $$n\to\infty$$이면 극한값은 [math(0)]이 되어 $$\boldsymbol{\bar X}$$'''와''' $$\boldsymbol s^2$$'''은 일치추정량이다.'''

2.4. 충분추정량·충분성

표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 '''충분성'''(sufficiency)이 있다고 하며, 이 추정량을 '''충분추정량'''(sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.

각 $$\hat\Theta$$의 값에 대하여 $$\hat\Theta=\hat\theta$$이 주어질 때 확률표본 $$X_1,\,X_2,\,\cdots,\,X_n$$의 조건부확률분포 또는 밀도가 $$\theta$$에 대하여 독립이면, 통계량 $$\hat\Theta$$을 모수 $$\theta$$의 '''충분추정량'''이라고 한다.

3. 우선순위

두 추정량 $$\hat\theta_1$$과 $$\hat\theta_2$$ 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.

$$\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_1)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases}$$

[2] $$\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2$$에서, 편의가 0이 아니면서 $$\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0$$이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 $$(\textsf{bias})^2\geq 0$$이므로 편의가 0이 아니라면 무조건 $$(\textsf{bias})^2>0$$일 수밖에 없다. 이런 상황에서 $$\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0$$이 되려면 무조건 $$\rm{Var}(\hat\theta)<0$$이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.

분류

이런 경우에는 일반적으로 '''불편추정량을 우선한다.''' 그러나 $${\rm MSE}[\hat\theta_1]$$와 $${\rm MSE}[\hat\theta_2]$$의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.

3.1. 예시

$$s^2$$의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 '''평균'''이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, $$\sigma^2$$을 구할 때와는 달리 $$s^2$$을 구할 때는 '''(표본의 개수)-1'''로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 설명에 앞서 다음과 같이 약속하자.

$$s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1},\;{\hat\sigma}^2=\dfrac{\sum(X_i-\bar X)^2}n $$[비교]

먼저, 앞서 밝혔듯이 $$s^2$$은 $$\sigma^2$$의 불편추정량이므로, $$s^2$$과 값이 같을 수가 없는 $${\hat\sigma}^2$$은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 $$s^2$$이 $${\hat\sigma}^2$$보다 더 적절한 추정량이다.
이번에는 유효추정량의 관점에서 $$\rm MSE$$의 대소를 판별해 보자.

$$\begin{aligned}{\rm MSE}[{\hat\sigma}^2]&={\rm Var}({\hat\sigma}^2)+[E({\hat\sigma}^2)-\sigma^2]^2\\&=\left(\dfrac{n-1}n\right)^{\!2}\dfrac{2\sigma^4}{n-1}+\left(\dfrac{n-1}n\sigma^2-\sigma^2\right)^{\!2}\\&=\dfrac{2n-1}{n^2}\sigma^4\\{\rm MSE}[s^2]&={\rm Var}(s^2)+\textsf{(bias)}^2\\&=\dfrac{2\sigma^4}{n-1}\;(\because\textsf{(bias)}=0)\\ \\\rightarrow{\rm MSE}[s^2]-{\rm MSE}[{\hat\sigma}^2]&=\dfrac{2\sigma^4}{n-1}-\dfrac{2n-1}{n^2}\sigma^4\\&=\dfrac{3n-1}{n^2(n-1)}\sigma^4\geq 0 \\ \\ \therefore{\rm MSE}[s^2]&\geq{\rm MSE}[{\hat\sigma}^2] \end{aligned}$$

$$n>1$$일 경우에 $$3n-1,\;n^2,\;n-1>0$$, $$\sigma^4\geq 0$$이므로 위가 성립하여, 결국 유효추정량의 관점에서는 $${\hat\sigma}^2$$이 $$s^2$$보다 $${\rm MSE}$$가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 $$\rm MSE$$가 같은 경우는 $$\sigma^4=0$$일 때인데, 이는 각 $$X_i$$들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 $${\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2]$$로 보아도 좋다.
이렇게 $$s^2$$과 $${\hat\sigma}^2$$은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 '''불편추정량'''을 더 중요한 척도로 평가하여 $$s^2$$을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.

[비교] $${\hat\sigma}^2=\dfrac{n-1}ns^2$$