OLS

 


Ordinary Least Squares.
한국어: 최소자승법, 최소이승법, 최소제곱법. 현재 최소제곱법으로 명칭이 변경되었다.
1. 개요
2. 가우스-마르코브 조건
2.1. 선형성(Linear)
2.2. 오차항의 평균은 0(exogeniety)
2.3. 동분산성(homoskedasticity)
2.4. 오차항은 서로 독립
2.5. 독립변수는 주어진 것으로 가정
3. GLS


1. 개요


주로 통계에 대해 처음 배울 때 접하는 모형으로 매우 단순하지만 많은 곳에서 쓰인다. 이를 가장 단순히 써보면 다음과 같다.
Y=aX+b
어떤 종속변수 Y가 어떤 독립변수(들) X들의 선형 결합을 통해 결정된다고 보는 것이다.
가우스-마르코브 조건(Gauss-Markov assumption)을 만족시킬 때, BLUE(best linear unbiased estimator, 최량선형불편추정량)임을 증명할 수 있다. BLUE는 불편성(unbiased) 기댓값이 모수와 일치, 즉 모형을 통해 추정한 값들의 평균이 참값임)을 갖추고 가장 효율적인(통계학이나 계량경제학에서 효율성은 분산이 작다는 뜻) 추정방법이다.

2. 가우스-마르코브 조건



2.1. 선형성(Linear)


실제 추정하고자 하는 현실이 선형적인 모델로 설명될 수 있어야 할 것. 즉 독립변수들에 대해 편미분을 하면 상수가 나와야 함.
이 조건을 만족하지 못하면 최소자승법으로 추정한 모델은 기본적으로 잘못된, 의미 없는 추정이 된다.

2.2. 오차항의 평균은 0(exogeniety)



2.3. 동분산성(homoskedasticity)


어느 시점에서 관측하더라도 동일한 분산이 나올 것.
이를 만족하지 못하는 경우를 가리켜 heteroskedasticity(이분산)이 존재한다고 하며, 이 경우 추정된 값들의 유의성을 담보할 수 없다.

2.4. 오차항은 서로 독립


어떤 시점의 오차항과 다른 시점의 오차항 사이의 공분산이 0일 것.
이를 만족하지 못할 경우 공간상관성이나(패널/횡단면) 자기상관성(시계열)이 존재하며, OLS는 더 이상 가장 좋은 추정방법이 되지 못한다.

2.5. 독립변수는 주어진 것으로 가정


  1. 주어진 것이라는 표현은 비확률변수라는 것이지 상수라는 뜻은 아니다. 비확률변수는 기댓값, 분산 등 적률의 계산에서 상수처럼 다룰 수는 있지만 엄연히 변수이지 상수는 아니다.
2. 사회 자료는 비확률변수라는 조건도 너무 강하기 때문에[1] '독립변수는 확률변수이다. 그리고 오차항에 대해 독립이다.'라는 완화된 조건을 사용하기도 한다.
3. 사회 자료는 위의 조건 마저도 강하기 어기는 경우가 많기 때문에 더 완화된 조건인 '조건부 0' 가정을 사용하는 경우가 더 일반적이다. 즉 독립변수 행렬 X와 오차항 벡터 e에 대해 "E(e|X) = 0" 가정을 사용한다.
4. 때로는 위의 3번 가정도 깨져서 각각의 독립변수와 오차항의 상관계수가 0이라는 조건을 사용해야 하는 경우도 있다. 즉 cov(e,x) = 0을 사용한다.
2.0.1~ 2.0.4번 조건을 만족하고 2.0.5의 3번 조건까지만 만족한다면 OLS 추정량은 BLUE(Best Linear Unbiased Estimator)이다. 그러나 5.3이 만족되지 않고 5.4가 만족되면 이 때부터는 BLUE가 아니다. 이 떄부터는 추정량에 bias가 존재한다. 다만 5.4가 만족된다면 OLS 추정량은 일치추정량(consistent estimator)이다. 즉 편의가 있지만 대표본 하에서는 추정량이 참값으로 확률수렴한다.

3. GLS


오차항에 이분산성이나 자기상관성이 있는 경우에 대해서는 OLS(통상최소제곱)가 아니라 GLS(Generalized Least Squares, 일반화 최소제곱)를 사용할 수 있다. 오차항의 이분산 구조나 자기상관 구조를 활용 안다면 이를 상쇄할 수 있는 함수를 사용하는 최소제곱방법이다. OLS에서는 오차항의 크기 만큼 가중치가 주어지는데, GLS에서는 오차항의 이분산성이나 자기상관성을 상쇄할 수 있도록 보정된 가중치를 부여하여 최소제곱 추정을 한다고 생각하면 편하다.
그런데 선형확률모형 같은 특별한 케이스가 아닌 이상에야 오차항의 함수 구조를 안다고 조건 자체가 비현실적이다. 따라서 요즘에는 GLS를 잘 사용하지 않고 이분산성이나 자기상관성에 대해서도 강건한(robust) 표준오차 추정량을 사용하는 경우가 일반적이다. 다만 잔차의 그래프나 플롯을 그렸을 때 주어진 자료의 이분산성이나 자기상관성이 너무 강할 때에는 GLS와 robust 추정을 함께 쓰기도 한다.
[1] 2100년 가계소득을 독립변수로 한다고 했을 때, 이 독립변수는 2100년 가계소득 자료가 조사되고 취합되어 발표되기 전까지는 알 수가 없다. 즉 확률변수이다.