결정계수
1. 개요
'''결정계수(coefficient of determination)'''R^{2}=1-SSE/SST로 정의된다. 특히 최소자승법을 이용한 선형회귀분석에서 종속변수의 맞춤 값(fitted value)과 실제 값(actual value)의 피어슨 상관계수를 제곱한 값이 결정계수와 같아져, 통계학에서 주로 사용된다.증명 이 때문에 선형 회귀 분석에서 결정 계수는 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중=SSR/SST", 즉 "모형의 설명력"으로 계산될 수 있다. 이때 총 제곱합(total sum of square)이 SST, 회귀 제곱합(regression sum of square)이 SSR, 잔차 제곱합(residual sum of square)이 SSE이다.
2. 상세
R2의 계산에 사용되는 상관계수는 선형회귀분석에서 종속변수의 맞춤 값(fitted value)과 실제 값(actual value)의 상관계수이다. 선형회귀분석 연구되던 초창기에는 모형의 적합도를 측정하기 위한 측도(measure)로 종속변수 맞춤값과 실제 값의 상관계수를 사용했다. 그러던 중 비음(nonnegative) 측도를 만들기 위해 상관계수의 제곱을 사용했는데, 이 값의 특성을 연구해보니 종속변수의 전체 변동에서 회귀모형이 설명할 수 있는 비율을 나타내는 것이라는 결과가 나왔기 때문에 이 값을 모형 설명력의 측도로 많이 사용한다. 좀 더 구체적으로 설명하면 선형회귀모형에서 맞춤 값(fitted value)과 실제 값(actual value)의 상관계수를 구하고 이를 제곱하면 (SSR*SST)/SST2 이 나오고 분자 분모의 SST를 약분하면 흔히 보는 R2가 나온다. 증명
R2의 변종으로 조정된 R2(adjusted R2), 예측 R2(predicted R2)등이 있다.3. 용도
종속변수에 대한 모형의 설명력을 나타내는 측도로 사용된다. 조정된 R2, AIC(Akaike information criterion), BIC(Bayes information criterion) 등과 함께 모형선택에서의 대표적인 기준 측도이다.
라그랑지 승수 검정(LM test)의 검정통계량이 대부분 관측치 수(표본의 수)*결정계수, 즉 nR2다. 대표적인 검정으로 이분산 검정에서의 Breusch–Pagan test, 자기상관에서의 Breusch–Godfrey test가 있다. R2 자체가 이론통계학적으로 좋은 성질을 많이 갖고 있기 때문에 이 외에도 각종 test에서 많이 사용된다.
4. 중요도?
R2가 크면 좋기는 하다. 커서 나쁠 건 없다. 하지만 크다고 무조건 좋은 것도 아니고 작다고 나쁜 것도 아니다. R2가 아무리 높아도 시계열모형에서의 허구적 회귀와 같은 경우라면 아무 의미가 없다.
선형모형의 목적이 종속변수의 예측에 있는 것이라면 높은 것이 좋다. R2자체가 선형모형에서 종속변수의 움직임을 얼마나 잘 나타내는지를 보여주는 지표이기 때문이다. 이 때에는 R2와 예측 R2(predicted R2)를 함께 쓰는 경우가 많다. 예를 들어 선형모형으로 주가예측을 한다거나, 제품을 생산할 때에는 R2가 커야한다.
반면 목적이 변수간 관계 추정에 있다면 R2가 낮아도 큰 상관은 없다. 선형모형에서 고전적 가정들(등분산, 자기상관성 없음, 내생성 없음 등)이 성립하면 변수간 관계를 추정하는데에는 전혀 문제가 없기 때문이다. 사회과학 모형은 시계열, 패널 데이터가 아닌 이상 결정계수가 낮을 가능성이 큰데, 모형을 잘 설정하고 적절한 추정방법을 사용했다면 R2가 작더라도 낙담할 필요없다.