회귀 분석

 

回歸分析 / Regression
[image]
1. 개요
1.1. 역사
2. 상세
3. 선형 모형
4. 문제가 생기는 경우
5. 비선형 회귀 모형
6. 자유도
7. 엑셀로 회귀 분석 하기
8. 관련 문서


1. 개요


회귀분석(回歸分析)은 통계학에서 사용하는 자료 분석 방법 중 하나로, 간략히 표현해 여러 자료들 간의 관계성을 수학적으로 추정, 설명한다. 흔히들 통계학의 꽃이라고 한다. 그러나 그만큼 오해(?) 받고 있는 모델이기도 하다. 대표적으로, 회귀분석은 인과관계를 증명하는 방법이 아니라, 인과관계가 상정된 모델을 구현할 수 있는 것에 불과하다.
기업에서도 굉장히 많이 사용한다. 어지간한 기안서를 작성할 때 수요예측을 한다면 회귀분석으로 연관성을 검정한 후 제출하는 게 올바른 기안서 제출이다.
회귀모형의 형태에 따라 하나의 종속변수에 대해 독립변수가 하나인 경우를 단순회귀분석(Simple Regression Analysis), 반면에 하나의 종속변수에 대해 독립변수가 둘 이상인 경우를 다중회귀분석(Multiple Regression Analysis)이라 한다.
회귀분석을 통해 다음을 알 수 있다.
  • 종속변수와 독립변수 간에 선형관계가 존재하는지 알 수 있다.
  • 종속변수에 영향을 미치는 독립변수가 유의 한지와 영향력의 정도를 알 수 있다.
  • 추정된 회귀모형을 통해 종속변수의 예측치를 알 수 있다.


1.1. 역사


회귀분석(regression analysis)은 생물학자 프랜시스 골턴(Francis Galton)이 '평균으로의 회귀'(regression to the mean / regression towards mediocrity) 현상을 증명하기 위해 만든 것으로 알려져 있다. '평균으로의 회귀'는 부모와 아이의 키를 측정했을 때 쉽게 상상할 수 없는 극단적인 값이 되어도, 그 다음에 새로 측정을 했을 때에는 평균에 더 가까워지는 (평균으로 회귀하는) 경향성을 보고 골턴이 일반화하기 위해서 쓴 용어다.
골턴은 부모와 그 자식의 키에 대한 자료를 만들어 205명의 부모와 그들의 자식 930명의 키에 대한 자료를 분석하여 회귀계수가 2/3임을 밝혔다. 가우스의 최소제곱법을 쓰지 않고 타원으로 적합시켜 회귀계수가 2/3임을 찾아낸 것이 특이하다. 즉, 키는 유전적인 요소가 강력하게 작용한다는 것을 밝힌 것이다. 골턴은 산점도에 최초로 선형식을 표현하여 오늘날의 회귀분석을 성립하는 데 지대한 공을 세웠다.
현대에 와서는 회귀(regress), 즉 평균으로 돌아간다는 의미는 거의 사라졌다. 요즘에는 독립변수와 종속변수를 설정 [1]하고 이들의 관계를 통계적으로 살펴보는 대부분의 방법론을 다 회귀분석이라고 부르기도 한다. 시계열 데이터를 사용하면 시계열 회귀분석이고 패널 자료를 사용하면 패널 회귀 분석인 식이다.

2. 상세


회귀분석은 주어진 자료들이 어떤 특정한 경향성을 띠고 있다는 아이디어로부터 비롯된다. 회귀분석은 기본적으로 변수들 사이에서 나타나는 경향성을 설명하는 것을 주 목적으로 한다. 즉, 변수들 사이의 함수적인 관련성을 규명하기 위해 어떤 수학적 모형을 가정하고 이 모형을 측정된 변수들의 자료로부터 추정하는 통계적 분석 방법이다. 어떤 관계가 있을지에 대한 여러 가지 가설들을 회귀 '모형'이라 부르며, 회귀모형은 수학적으로 표현했을 때 크게 트렌드를 나타내는 부분과 통제할 수 없는 오차를 나타내는 부분으로 분리된다.
'모형'은 간단히 말하면 현실을 간략하게 표현한 것이다. 앞에선 이야기한 여러 가설들을 회귀'모형'이라고 부르는 이유는, 그 모형이 100%까지는 아니라고 하더라도 간단한 가설을 통해 현실의 많은 부분을 설명해줄 수 있기 때문이다. "경제학의 많은 문제는 검증이 불가능하여 가설 설정에 그치기 때문에 모형"이 된다는 설명은, 오히려 수리적으로 모형을 검증하기 위한 실험이나 자료수집 역시 있다는 것을 생각해보면 다소 부적절한 설명이다.
기본적으로는 오차를 가능한 한 작게 만드는 모형이 좋은 모형이기 때문에 오차를 가장 작게 만드는 모형을 찾는 방법들이 만들어졌는데, 가장 일반적으로 접하게 되는 것은 자료와 평균의 오차를 제곱해서 더했을 때, 그 합이 가장 작아지는 모형을 찾아내는 '최소제곱법'이다. 자료와 평균의 오차만 구해서 그대로 더하게 되면, '평균'의 정의로 인해 오차의 합은 반드시 0이 된다. 때문에 일부러 오차를 제곱해서 0보다 큰 수들로 만든 다음에 이 값들을 누적하여 사용하는 것이다.[2]
주어진 자료를 분석하는 작업의 관점에서는 '회귀분석'이라고 부르는 일이 많지만, 이 분석 작업에 사용되는 것은 주어진 자료들 사이의 관계에 대한 모형이라는 점에서 '회귀모형'이라는 말 역시 빠지지 않고 접하게 된다.
자료를 설명해줄 수 있는 중심적인 트렌드를 찾는 것이 회귀분석의 목적이기 때문에, 이를 통해 만들어진 회귀모형은 상당히 활용할 수 있는 여지가 넓다. 예를 들어 (비록 쉽지는 않은 작업이지만) 많은 회귀모형이 '예측'의 맥락에서 사용되기도 한다. 물론 회귀모형을 이용해 알지 못하는 자료의 특징을 '예측'하는 것은 결코 쉽지 않은 일이기는 하지만, 원론적으로 이야기한다면 이런 것에도 써먹을 수 있다는 이야기이다. 그런 의미에서, '회귀분석'이 '결과에서 원인으로의 역산'이라고 이야기하는 것은 회귀분석의 일부분만을 설명하는 것밖에 지나지 않는다.
회귀 방정식은 독립변수 표본의 범위를 벗어나는 값에 대한 예측에 쓰면 안 된다. 여기에서 쓰면 안된다는 것의 의미는 '값을 구할 수는 있지만 그 결과가 그다지 유의한 의미는 없다'는 것이다. 선형추정의 특징 중 하나가 구간추정을 했을 때, 변수들의 표본평균벡터에서 예측구간이 가장 좁고, 그 점에서 멀어질수록 구간이 넓어진다는 것이다. 같은 유의수준 하에서라면 예측구간은 좁을수록 좋다. 그런데 독립변수의 값이 표본의 밖으로 넘어가면 예측 구간이 너무 넓어져서 예측의 의미가 없기 때문이다.
일반적으로 예측된 Y 값과 실제 데이터 사이에는 오차가 존재한다. 오차의 양은 다양하지만 평균적인 오차의 양은 상관관계의 강도와 직접적으로 연관된다.
종속변수의 예측값(predicted value, 혹은 fitted value를 번역하여 맞춤값이라고도 함)과 종속변수 실제값(actual value)의 상관 계수 [3] [4] r의 제곱결정 계수(coefficient of determination) R2은 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중", 즉 "모형의 설명력"이다.
-1 ≤ r ≤ 1
0 ≤ R2 = SSR/SST ≤ 1
총 제곱합(total sum of square)이 SST, 회귀 제곱합(regression sum of square)이 SSR, 잔차 제곱합(residual sum of square)이 SSE이다. 단, 위의 부등식은 절편을 포함한 선형회귀에 대해서만 성립한다.
회귀 분석의 귀무 가설 H0는 "기울기 β1=0이다"같은 것이고, 대립 가설 H1은 "기울기 β1≠0이다"와 같은 것이다. 구체적인 예를 들자면, H0는 "약이 효과가 있다"이고, H1은 "약이 효과가 없다"이다. 회귀 분석에서 절편은 β0라고 하고, 기울기는 β1이라고 한다.
독립 변수종속 변수에 얼마나 영향을 끼치는가를 검증할 수 있다. 예를 들어, 공부 시간이 학교 성적에 얼마나 영향을 미치는지, 약물이 얼마나 효과가 좋은지 분석해볼 수 있다. y = β0 + β1 * x 와 같은 형태인데, 독립 변수가 x, 종속 변수가 y이다.
(1) H0: β0 = 0 vs β0 ≠ 0
(2) H0: β1 = 0 vs β1 ≠ 0
1번처럼 절편이 0인지 아닌지와, 2번처럼 기울기가 0인지 아닌지에 대한 검증이다. 많이 쓰는 건 2번이다. β1이 0이 아니라면 공부 시간이나 약물이 성적이나 질병에 효과가 있다는 것이다. p-값이 0.05보다 작으면 독립 변수가 종속 변수에 영향을 준다고 볼 수 있다. 특히, β1이 클수록 공부 시간이나 약물이 성적이나 질병에 효과가 좋다는 의미이다.
기울기 모수에 대한 검정이 보다 일반적인 이유는 회귀분석의 주된 목적이 변수 간의 관계를 알아보는 것이기 때문이다. 다만 연역적으로 유도한 결과 상수항(절편)이 없는 모형이 나왔고, 이 모형의 현실설명력을 실증적으로 검정하고자 할 때에는 β0에 대한 검정도 중요하다.[5] 즉 어떤 가설을 사용할지는 개별 연구의 목적에 따라 달라진다. 그리고 이런 경우에는 독립변수들이 음수와 양수에 폭 넓게 분포해 있어서, 절편에서의 신뢰구간이 좁게 나오는 경우도 많다.

3. 선형 모형


사실상 대학교 학부 수준에서 사용하는 통계 분석 방법론은 큰 틀에서는 모두 회귀분석의 형태로 표현될 수 있다고 해도 과언이 아닐 정도로 통계학에서 중요한 축을 담당하고 있다. 여러 변수들 간의 관계가 선형적이라고 가정하는 '선형모형'을 통해 다양한 통계방법론을 수학적으로 기술, 분석할 수 있다. 수학이나 통계학에서 말하는 '선형성'을 일상적인 용어로 설명하면, 어떤 수에 다른 수를 더하거나 곱했을 때 그만큼의 값이 그대로 나온다는 것이다. 단순한 예에 대해서는 계량경제학 문서 참조바람.

4. 문제가 생기는 경우


이분산(Heteroskedasticity), 자기상관성 (Autocorrelation), 다중공선성 (Multicollinearity), 중요 변수가 제외된 경우, 과적합 (Overfitting), 외삽법 (Extrapolation), 데이터 누락 등이 있다. 독립항등분포 (iid) 문서 참조.

5. 비선형 회귀 모형


비선형적인 현상의 전형들인 '시너지'나 '피드백'이라는 말에서도 알 수 있듯, 비선형적인 관계에서는 (비유적으로 이야기한다면) 1+1이 2가 아니라 모종의 이유로 3이나 4가 되기도 한다.
비선형 모형은 매우 어렵다. 1960년대에는 사실상 의미있는 결과를 내놓지 못할 정도였다. 예를 들어, 맨 위의 부모의 키와 자식의 키의 상관관계도를 나타낸 그림도, 그려진 도형이 선이 아니라 '''타원'''이다. 1970년대 이후 잭나이프법, 부트스트랩법 등이 나오면서 비선형 회귀모형도 점점 활용되게 되었다.
아래 논문(1997)을 참조바람.
통계청『통계분석연구』제2권 제1호(’97. 봄) 143-160, "비선형 회귀모형에서의 붓스트랩에 관한 연구", 강철, 박종태 pdf 파일

6. 자유도


회귀 분석의 자유도(degrees of freedom, df)는 다음과 같이 구한다. 아래는 단순 회귀 분석 기준.[6]
요인
제곱합
자유도
회귀
SSR
1
잔차
SSE
n-2

SST
n-1

7. 엑셀로 회귀 분석 하기


엑셀로 회귀분석 하기
엑셀로 통계 분석하는 방법

8. 관련 문서



[1] 독립변수와 종속변수를 따로 구분하지 않는 방법은 다변량 분석에서 주로 배운다. 대부분 통계학과 3학년 때 배운다.[2] 입문 수준의 통계학 책에서는 직관적 이해를 돕기 위해 본문과 같이 설명하는 경우가 많다. 하지만 이러한 설명은 좀 부정확하다. 일단 '평균'이라고 했는데, 어떤 변수의 평균을 말하는 것인지에 대한 설명이 없다. 좀 더 정확히 말하면 오차항 e에 대한 가우스-마코프 조건 중 하나인 E(e) = 0 가정에 의해 오차항의 기댓값이 0이라고 말해야한다. 평균과 기댓값을 사실상 같은 말로 취급하는 경우도 있으나 기댓값은 실현값의 확률에 대한 가중평균이기 때문에 평균이라는 표현도 가능하면 기댓값이라고 해주는 것이 더 좋다. 실제 계산에 있어서 오차는 관측이 되지 않기 때문에 논외로 치더라도, 최소제곱법의 1계 조건에 의해 잔차의 합은 0이 될 수 밖에 없다. (1계 조건 중 절편 모수에 대한 편미분결과가 0이 되어야하는 조건) 회귀분석 변수들 사이의 관계를 정확하게 기술하거나 예측을 하려면 이 잔차는 당연히 최소가 되어야 한다.[3] 단순회귀분석에서는 흔히들 사용하는 상관계수의 제곱이 R2와 일치하지만 다중회귀분석에서는 종속변수의 예측값과 실제값의 상관계수임을 명시해야한다. 변수가 여러 개인데 '상관계수'라고 하면 어떤 변수와 어떤 변수의 상관계수인지를 알 수 없기 때문이다.[4] 좀 더 정확히 말하면 종속변수에 대한 독립변수들의 다중상관계수이다.[5] 대표적으로 CAPM 모형[6] 다중 회귀 분석은 요인수를 k로 하자면 회귀의 자유도는 k, 잔차의 자유도는 n-k-1이다.

분류