주성분 분석
Principal Component Analysis
1. 개요
개별 자료의 상관관계를 이용해 자료의 차원(dimensionality of data)을 줄이는 통계학 기법. 요인 분석과 동일한 원리로 작동한다. 그러나 요인 분석과는 본질적으로 차이가 있다. 많은 정보를 함유하고 있는 여러 변수들에서 공통된 정보를 추출하여 자료의 차원을 줄이거나 여러 변수들을 대표하는 지표를 구성하기 위해 주성분 분석/요인 분석이 쓰인다.
$$\mathbf{x} = \begin{bmatrix} x_1 \quad x_2 \quad ... \quad x_p \end{bmatrix} $$로 이뤄진 자료가 주어졌다고 할 때, p[1] 가 너무 클 때 이들을 대표할 수 있는 적절한 대리변수를 찾고자 하는 것이 주성분분석이다. 이 때 X의 대리변수를 찾는 방법이 선형변환이다. 즉 적절한 행렬 A를 활용해 X를 대신할 수 있는 Y = AX를 얻고, Y 행렬의 변수 중요 변수 몇 개를 추려 X 대신 사용하는 것이 주성분 분석이다. 따라서, 선형변환을 하는 행렬 A를 어떻게 찾아내느냐가 주성분 분석의 핵심이다.
A를 찾는 데에 공분산행렬이나 상관계수 행렬을 사용한다. 공분산 행렬과 상관계수 행렬을 사용하는 이유는 이 행렬들이 주어진 자료의 변동성을 반영하기 때문이다. 공분산 행렬, 상관계수 행렬의 변동성을 최대한 많이 가져오는 행렬 A를 만듦으로써 설명력이 높은 대리변수를 만들고자 하는 것이다.[2] 그런데, 공분산 행렬과 상관계수 행렬은 모두 대칭행렬이고 양정치행렬[3] 이다. 모든 원소가 실수인 대칭행렬은 모든 고유값(eigenvalue)이 실수이며 대각화(diagonalization)가 항상 가능하다. 특히 스펙트럼 분해가 가능하다. 또한 양정치행렬의 고유값은 모두 양수이다.[4] 따라서 공분산행렬과 상관계수 행렬은 항상 모든 고유값이 양수인 스펙트럼 분해가 가능하다. 이를 잘 활용하면 적절한 Y를 만들어주는 A를 찾을 수 있고 여기에서 설명력이 높은 변수가 무엇인지 알 수 있다.기존의 자료행렬 X의 설명력을 온전히 가져오려면 Y행렬의 모든 변수를 사용해야한다. 그러나 애초에 분석의 목적이 변수의 갯수를 줄이는 것, 즉 자료의 차원축약이 주성분 분석의 목적이다. 따라서 Y에서 사용할 변수를 추려내는 기준이 있어야하며 이에 대해서는 여러가지 기준이 있다. 실무에서 사용하기 용이하게 일반적으로 받아들여지는 관례적인 기준, 시각화를 사용한 기준, 통계 이론을 사용한 좀 더 엄밀한 기준이 있다. 통계 이론에 기반한 기준이라고 해도 그것이 완전무결한 기준은 아니기 때문에 다양한 기준을 숙지하고 자신이 하고자 하는 실증분석에 적합한 기준을 채택하여 사용하는 것이 필요하다.
처음에 주성분 분석의 아이디어가 무엇인지만 이해하면, 나머지 내용은 모두 행렬과 벡터에 대한 내용 뿐이다. 선형대수를 얼마나 충실하게 공부했고 수리통계학, 회귀분석을 들으며 이를 충분히 연습했다면 쉽게 공부할 수 있다. 통계학과 고학년 수준에서 주성분 분석에만 특별히 요구되는 지식은 없다고 봐도 무방하기 때문이다. 경제학 쪽에서도 대학원 계량경제학1을 소화할 수 있는 능력이라면 학부 주성분 분석은 독학으로 어렵지 않게 공부할 수 있다.
2. 경제학 연구방법론으로서의 활용
경제학에서 흔하지는 않았던 방법이다. 그러나 2000년대부터 거시경제학 분야에서 활용되기 시작하고 있다. 벡터자기회귀 (VAR) 모형으로 금융정책의 영향을 살펴보고 싶다면 제한된 수의 변수를 이용한다. 이렇게 변수의 수에 제한이 있다면 '변수 누락에 따른 편의'[5] 가 나타날 수 있다. Bernanke et al.(2005)나 Biovin et al.(2009)은 이런 문제를 해결하기 위해 요소추가 벡터자기회귀 (FAVAR)[6] 모형을 주장하였다. 여기서는 '관찰 가능한 모든 변수'에 요인 분석을 적용해 금융정책을 대변하는 잠재변수[7] 을 추정하고 이를 활용하여 벡터자기회귀 모형을 추정한다. 또 이런 분석방법은 노동경제학에서도 유용하다. [8]
[1] 변수의 갯수[2] 자칫 변동성이 크면 모형의 불확실성이 높아지고 적합도가 떨어지지 않느냐고 생각할 수 있다. 그러나 이는 종속변수의 변동성이 클 때의 이야기이다. 주성분 분석은 딱히 독립변수와 종속변수를 구분하지 않고 모형을 전개한다. 직관적으로 설명하자면, 주성분 분석에서 변수의 분산은 자료의 폭과 다양함, 설명할 수 있는 범위의 크기를 반영한다고 생각하면 된다.[3] positive-definite. 영벡터를 제외한 임의의 실벡터 u에 대해 $$ {\bf u^t B u} > 0$$를 만족하는 행렬 B를 양정치행렬이라고 한다.[4] 통계학에서 이차형식을 다룰 때에는 대칭행렬을 고려하는 것이 일반적이기 때문에 '대칭행렬이며 양정치 행렬이다'가 아니라 '양정치 행렬이다'라고만 서술하는 경우도 많다.[5] ommited variable bias[6] Factor-augmented VAR[7] latent variable[8] 참고문헌