2SLS
2 stage least squares.
가우스-마르코브 가정 중 '잔차가 독립변수/설명변수와 상관관계가 없을 것'이라는 가정이 무너질 때 사용할 수 있는 추정방법.
두 단계에 걸쳐 추정하는데, 첫번째 단계에서는 도구변수를 사용하여 문제가 되는 변수를 추정하고, 두번째 단계에서는 그 문제되는 변수를 첫번째 단계에서 추정한 값으로 대체해버린 다음 원래 식을 추정하는 것이다.
가정에는 가우스-마르코브 가정의 대다수가 그대로 적용된다.
$${\sf money} = a_0 + a_1 + a_2 + e $$
$$ \quad \quad \quad= a_0 + a_1(b_0 + b_1 + e) + a_2 + e$$
$$ \quad \quad \quad= a_0 + a_1(b_0 + b_1(a_0 + a_1 + a_2 + e) + e) + a_2 + e$$
이럴 경우, 2SLS를 이용하여 문제점을 해결할 수 있다.
예를 들어 원래 식이 다음과 같다 하자.
$$y = a_1 + a_2x_1 + a_3x_2 + e$$
그리고 $$e$$와 $$x_1$$사이에 상관관계가 존재한다. 그러면 가우스-마르코브 가정이 만족되지 않아, OLS는 더 이상 BLUE[2] 가 아니다. 이를 이제 2SLS로 추정하면 다음과 같다.
도구변수와 내생성이 발생한 변수의 선형관계가 클 수록 추정의 효율성이 커져 추정의 불확실성이 줄어든다. 이 때의 선형관계는 도구변수와 내생성이 발생한 변수 사이의 상관관계라고 봐도 좋고 내생성이 발생한 변수를 도구변수에 대해 단순회귀분석 했을 때의 결정계수(R squared)라고 봐도 좋다. 단순회귀분석에서의 결정계수는 두 변수 간 상관관계의 제곱이기 때문이다.
가우스-마르코브 가정 중 '잔차가 독립변수/설명변수와 상관관계가 없을 것'이라는 가정이 무너질 때 사용할 수 있는 추정방법.
두 단계에 걸쳐 추정하는데, 첫번째 단계에서는 도구변수를 사용하여 문제가 되는 변수를 추정하고, 두번째 단계에서는 그 문제되는 변수를 첫번째 단계에서 추정한 값으로 대체해버린 다음 원래 식을 추정하는 것이다.
가정에는 가우스-마르코브 가정의 대다수가 그대로 적용된다.
- 모형이 정확하게 제시되어 있다(correctly specified.)
- 모든 변수의 오차 분산이 동일하다.[1]
- 오차항은 정규분포를 가진다.
- 이상치(outlier)는 제거되어 있다.
- 각 관측이 서로 독립적이다(independent of each other).
$${\sf money} = a_0 + a_1 + a_2 + e $$
$$ \quad \quad \quad= a_0 + a_1(b_0 + b_1 + e) + a_2 + e$$
$$ \quad \quad \quad= a_0 + a_1(b_0 + b_1(a_0 + a_1 + a_2 + e) + e) + a_2 + e$$
이럴 경우, 2SLS를 이용하여 문제점을 해결할 수 있다.
예를 들어 원래 식이 다음과 같다 하자.
$$y = a_1 + a_2x_1 + a_3x_2 + e$$
그리고 $$e$$와 $$x_1$$사이에 상관관계가 존재한다. 그러면 가우스-마르코브 가정이 만족되지 않아, OLS는 더 이상 BLUE[2] 가 아니다. 이를 이제 2SLS로 추정하면 다음과 같다.
- $$\hat{x_1} = b_1 + b_2z_1 + b_3x_2 + e$$를 먼저 추정한다. 여기서 $$z_1$$은 도구변수를 의미한다.
- 위에서 추정한 값을, 원래 식에 집어넣어 추정한다. 즉 다음 식을 추정한다. $$y = a_1 + a_2\hat{x_1} + a_3x_2 + e$$
도구변수와 내생성이 발생한 변수의 선형관계가 클 수록 추정의 효율성이 커져 추정의 불확실성이 줄어든다. 이 때의 선형관계는 도구변수와 내생성이 발생한 변수 사이의 상관관계라고 봐도 좋고 내생성이 발생한 변수를 도구변수에 대해 단순회귀분석 했을 때의 결정계수(R squared)라고 봐도 좋다. 단순회귀분석에서의 결정계수는 두 변수 간 상관관계의 제곱이기 때문이다.