추정(통계학)
1. 개요
estimation · 推定
통계학에서, 불완전한 데이터인 표본으로부터 전체 모집단에 대한 정보를 짐작하는 일. 이 문서에서는 통계학의 추정 이론을 다룬다.
2. 추정량·추정치
모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 '''추정량'''(estimator), 실제의 관찰값을 넣어 계산한 값을 '''추정치'''(estimate)라고 한다. 예를 들면 다음과 같다.
- 모수 $$\mu$$의 추정량은 $$\bar X=\dfrac{\sum X_i}n$$
- 모수 $$\sigma^2$$의 추정량은 $$s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1}$$
- 모수 $$p$$의 추정량은 $$\hat p=\dfrac{X}n$$
일반적으로 모수를 그리스 문자 [math(\theta)]로, 추정량을 $$\hat\theta$$으로, $$E(\hat\theta)=\bar{\hat\theta}$$로 표기한다. $$\hat\theta$$는 '세타 햇(theta hat)', $$\bar{\hat\theta}$$는 '세타 햇 바(theta hat bar)'로 읽는다.
2.1. 불편추정량·편의추정량·편의
분포의 평균값이 추정하려는 모수와 일치하는 추정량을 '''불편추정량'''(unbiased estimator), 그렇지 않은 추정량을 '''편의추정량'''(biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.
- $$E(\hat\theta)=\theta$$이면 불편추정량
- $$E(\hat\theta)\neq\theta$$이면 편의추정량
- $$\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu$$
- $$\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2$$
2.2. 유효추정량·평균제곱오차
모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 '''유효추정량'''(relatively efficient estimator)을 '''최소분산불편추정량'''(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.
$$\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] $$
이 식의 값을 '''평균제곱오차''' 또는 '''평균자승오차''' 또는 '''평균평방오차'''라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 '''MSE'''(mean squared error) 역시 많이 쓴다. $$\hat\theta$$의 MSE는 $$\rm{MSE}(\hat\theta)$$으로 표기한다.MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.
여기에서 $$\bar{\hat\theta}$$와 $$\theta$$는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로
$$E[(\bar{\hat\theta}-\theta)^2]=(\bar{\hat\theta}-\theta)^2$$
또한, $$\hat\theta-\bar{\hat\theta}$$는 $$\hat\theta$$의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.$$2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 $$
따라서 $${\rm MSE}$$를 다음과 같이 쓸 수 있다. 곧, $${\rm MSE}$$는 $$\hat\theta$$의 분산과 편의의 합이다.$$\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned}$$
불편추정량은 편의가 0이므로, 불편추정량의 $${\rm MSE}$$는 $$\hat\theta$$의 분산과 같다. 결국 이 $${\rm MSE}$$가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.2.2.1. 상대효율
모수 $$\theta$$에 대한 두 추정량을 $$\hat\theta_1$$, $$\hat\theta_2$$라 할 때, 두 $${\rm MSE}$$의 비율
$$\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)}$$
을 $$\hat\theta_1$$에 대한 $$\hat\theta_2$$의 '''상대효율'''(relative efficiency)이라고 하며 약어로 $$\rm RE$$로 표기한다. 상대효율은 다음과 같이 활용한다.- $$\rm RE>1$$이면 $$\hat\theta_2$$가 더 좋은 추정량
- $$\rm RE<1$$이면 $$\hat\theta_1$$이 더 좋은 추정량
2.3. 일치추정량
표본의 개수 $$n$$과 임의의 양의 상수 $$c$$에 대하여 다음이 성립할 때 $$\hat\theta$$은 $$\theta$$의 '''일치추정량'''(consistent estimator)이라고 한다.
$$\displaystyle\lim_{n\to\infty}P[|\hat\theta-\theta|\geq c]=0$$
$$\theta=\mu$$인 경우를 예를 들어 다르게 설명하면, 표본의 개수 $$n$$이 커짐에 따라 표본평균 $$\bar X$$가 모평균 $$\mu$$에 확률적으로 수렴해 갈 때 $$\bar X$$는 $$\mu$$의 일치추정량이라고 한다.또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.
- $$\hat\theta$$가 불편추정량
- $$\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0$$
- $$\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0$$[2]
2.4. 충분추정량·충분성
표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 '''충분성'''(sufficiency)이 있다고 하며, 이 추정량을 '''충분추정량'''(sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.
3. 우선순위
두 추정량 $$\hat\theta_1$$과 $$\hat\theta_2$$ 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.
$$\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_1)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases}$$
이런 경우에는 일반적으로 '''불편추정량을 우선한다.''' 그러나 $${\rm MSE}[\hat\theta_1]$$와 $${\rm MSE}[\hat\theta_2]$$의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.[2] $$\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2$$에서, 편의가 0이 아니면서 $$\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0$$이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 $$(\textsf{bias})^2\geq 0$$이므로 편의가 0이 아니라면 무조건 $$(\textsf{bias})^2>0$$일 수밖에 없다. 이런 상황에서 $$\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0$$이 되려면 무조건 $$\rm{Var}(\hat\theta)<0$$이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.
3.1. 예시
$$s^2$$의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 '''평균'''이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, $$\sigma^2$$을 구할 때와는 달리 $$s^2$$을 구할 때는 '''(표본의 개수)-1'''로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 설명에 앞서 다음과 같이 약속하자.
먼저, 앞서 밝혔듯이 $$s^2$$은 $$\sigma^2$$의 불편추정량이므로, $$s^2$$과 값이 같을 수가 없는 $${\hat\sigma}^2$$은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 $$s^2$$이 $${\hat\sigma}^2$$보다 더 적절한 추정량이다.
이번에는 유효추정량의 관점에서 $$\rm MSE$$의 대소를 판별해 보자.
$$n>1$$일 경우에 $$3n-1,\;n^2,\;n-1>0$$, $$\sigma^4\geq 0$$이므로 위가 성립하여, 결국 유효추정량의 관점에서는 $${\hat\sigma}^2$$이 $$s^2$$보다 $${\rm MSE}$$가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 $$\rm MSE$$가 같은 경우는 $$\sigma^4=0$$일 때인데, 이는 각 $$X_i$$들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 $${\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2]$$로 보아도 좋다.
이렇게 $$s^2$$과 $${\hat\sigma}^2$$은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 '''불편추정량'''을 더 중요한 척도로 평가하여 $$s^2$$을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.
[비교] $${\hat\sigma}^2=\dfrac{n-1}ns^2$$