상관계수

 


1. 개요
2. 피어슨 상관 계수
3. 엑셀로 상관 계수 산출하기
4. 관련 문서


1. 개요


/ correlation coefficient
상관관계에도 정도가 있다. 명백하고도 강력한 관계가 나타나는가 하면, 보기에 영 아리까리할 정도로 있는 듯 없는 듯한 상관관계가 나타나기도 한다. 이런 차이들을 나타내기 위해서 통계학자들은 '''상관 계수'''라는 것을 만들었다. 그들은 몇몇 방법을 고안했는데, 스피어만 상관계수(Spearman correlation coefficient), 크론바흐의 알파(Cronbach's alpha) 같은 것들이 있지만 압도적으로 많이 쓰이는 것은 단연 피어슨 상관 계수(Pearson correlation coefficient, Pearson r)라고 할 수 있다.
좌표평면을 펼쳐놓고 x 축은 변인 x 를, y 축은 변인 y 를 나타내게 한 뒤 각각의 관찰값들을 산점도 형태로 찍어놓으면, 그 결과 두 변인이 어떤 관계가 있는지 시각적으로 나타나게 된다. 양(+)의 상관이 나타날 경우 관찰값들은 우상향하는 방향으로 모이게 되고, 음(-)의 상관이 나타날 경우 관찰값들은 우하향하는 방향으로 모이게 된다. 그렇지만 관찰값들이 더욱 빽빽하게 밀집해서 모이는 경우가 있고, 조금은 대충대충(?) 흩어져 분포하는 경우가 있는데, 전자의 경우 상관계수가 높다고 말할 수 있고, 후자의 경우 상관계수가 낮다고 말할 수 있다. 그러나 피어슨 상관계수의 값은 반드시 -1에서 1 사이에 위치하게 된다.
  • -1에 가까운 값이 얻어지면 : 누가 봐도 매우 강력한 음(-)의 상관. 오히려 너무 확고하기 때문에 사회과학 데이터일 경우 데이터를 조작한 게 아닌가 의심할 정도이다. 물론 이건 사회과학 얘기고 순수학문에 가까운 분야일수록 요구되는 상관관계는 높은 편.
  • -0.5 정도의 값이 얻어지면 : 강력한 음(-)의 상관. 연구자는 변인 x 가 증가하면 변인 y 가 감소한다고 자신 있게 말할 수 있다.
  • -0.2 정도의 값이 얻어지면 : 음(-)의 상관이긴 한데 너무 약해서 모호하다. 상관관계가 없다고는 할 수 없지만 좀 더 의심해 봐야 한다.
  • 0 정도의 값이 얻어지면 : 대부분의 경우, 상관관계가 있을거라고 간주되지 않는다. 다른 후속 연구들을 통해 뒤집어질지는 모르지만 일단은 회의적이다. 하지만 무조건적으로 그런건 아니라 2차 방정식 그래프와 비슷한 모양이 될 경우 상관관계는 있으나 상관계수는 0에 가깝게 나온다.
  • 0.2 정도의 값이 얻어지면 : 너무 약해서 의심스러운 양(+)의 상관. 이것만으로는 상관관계에 대해 아주 장담할 수는 없다. 하지만 사회과학에선 매우 큰 상관관계가 있는 것으로 간주한다.
  • 0.5 정도의 값이 얻어지면 : 강력한 양(+)의 상관. 변인 x 가 증가하면 변인 y 가 증가한다는 주장은 이제 통계적으로 지지받고 있다.
  • 1에 가까운 값이 얻어지면 : 이상할 정도로 강력한 양(+)의 상관. 위와 마찬가지로, 이렇게까지 확고한 상관관계는 오히려 쉽게 찾아보기 어렵다.
[마부작침] 최초 공개! 2016 '전국 범죄지도' ③ 인구밀도의 범죄 방정식
실제 뉴스기사를 통해 상관계수의 값이 갖는 의미를 직접 실습해 보자. 각 지역별 범죄율에 강한 상관관계를 보이는 변인들이 무엇인가를 알기 쉽게 설명하고 있는데, 상관계수(상관지수)가 공개되어 있으므로 개념을 연습하기에는 좋은 사례가 되리라 생각된다.
상관관계를 분석하는 통계적인 기법은 바로 회귀분석이다. 물론 한 변인 대 한 변인의 관계만 연구할 수도 있지만, 한꺼번에 많은 변인들을 분석해 볼 수도 있다. 이를 별도로 다중회귀분석이라고 부른다. 이를 통해, 두 변인이 얼마나 강하게 관계를 갖고 있는지를 한눈에 알아볼 수 있다. SPSS 같은 통계분석 프로그램을 돌리면 클릭 몇 번만에 컴퓨터가 금세 데이터를 뽑아내 주니 더욱 편하다. 분산분석(ANOVA)과 함께, 사회과학 연구실에서 밥 먹듯이 하는 일이 바로 이것. 아무튼 과학적 방법이 인과관계를 규명하는 것이라면, 상관관계의 규명은 통계학적 검증에 많이 의지하고 있다고 봐도 될 것이다.
상관관계의 규명에는 크게 두 가지 오류의 가능성이 있는데,[1] 상관관계가 없는데도 있다고 생각하는 오류가 있고, 있는데도 없다고 생각하는 오류가 있다. 통계학에서는 전자를 '''1종 오류'''(type 1 error)라고 하고, 후자를 '''2종 오류'''(type 2 error)라고 한다. 현실에서는 2종 오류가 위험성이 큰 경우가 많지만,[2] 온갖 미혹과 추측과 혹세무민이 판치는 지식의 세계에서는 1종 오류가 더 큰 잠재적 위험성을 갖고 있다. 그리고 이런 오류는 대체로 이하에 서술될 "상관관계가 있으니까, 인과관계도 있겠구나!" 의 함정에까지 빠져서 유사과학이라는 최종적 목적지까지 도달하게 되는 경우가 많다.(…) 번외로, 상관관계가 없다고 생각했는데 실제로 없었지만 문제는 그 이유가 틀린 경우를 3종 오류(type 3 error)라고 한다.
거짓 상관관계는 때때로 인지적 착각에 의해서 형성되기도 한다. 심리학에서는 이를 '''착각적 상관'''(illusory correlation)이라고 부른다. 대표적인 착각적 상관의 예는 바로 징크스가 있는데, 이는 엄밀히 말하면 인과관계에서의 착각까지도 포함한다고 해야 할 것이다.

2. 피어슨 상관 계수


Pearson correlation coefficient 또는 Pearson's r
많은 수의 상관 계수가 있지만 가장 널리 쓰이는 것은 피어슨 상관 계수다. 심지어 스피어만 상관 계수나 파이, r(b)같은 다른 상관계수들도 피어슨 상관계수의 변형이니 말 다했다.[3]이 상관계수는 측정하려는 두 변수의 상관관계가 서로 선형일때, 즉 1차함수로 표현가능할때 유용하다. 그래서 상관관계가 어떤 모양을 그리는지가 중요하다. 만약 상관관계가 직선이 아닌 곡선을 그린다면 η같은 다른 상관계수를 써야 한다.
피어슨 상관계수는 수학적으로 말하면 ''''전체 편차' 내에서 '예측치와 평균 간의 차이'가 차지하는 비율'''이라고 할 수 있다. 좀 더 풀어서 설명해보자면 통계에서 편차는 다음처럼 두 부분으로 나눌수 있다.
편차=평균과 예측값 간의 차이[4]+예측값과 실제 값의 차이
이때 편차 안에서 후자의 차이가 차지하는 비율이 작다면 그만큼 예측값이 실제 값과 가깝고, 그만큼 예측이 정확하다고 할 수 있다. 예를 들어 편차에서 예측값과 실제 값의 차이가 차지하는 비율이 10%밖에 안된다면, 그 비율이 40%일 때보다 예측이 정확하다고 할 수 있을 것이다. 위에서 말했듯이 예측이 정확할수록 상관 관계가 강하다고 할 수 있으므로 위의 비율을 통해 상관 관계가 강력한지의 여부를 알 수 있다. 그래서 통계학자들은 예측값과 실제 값의 차이 대신 예측값과 평균 간의 차이를 구하고, 이 차이가 전체 편차에서 어느 정도의 비율을 차지하는지 계산하여 상관 관계가 얼마나 강력한지 판단한다.[5]
공분산은 X와 Y의 단위에 의존하는 양이므로 단위와는 무관한 측도를 얻기 위하여 공분산을 X와 Y의 표준 편차의 곱으로 나누어서 얻은 값이 상관 계수라고 볼 수도 있다. 상관 계수는 X와 Y의 선형 관계의 강도에 대한 측도라고 보는것.
피어슨 상관계수를 구하는 식은 다음과 같다.
[image]
여기서
x,y=각 변수에 속하는 변량.
n=총 변량의 개수
z=표준점수. 정확히는 표준점수 중에서 z점수를 말한다.
위 식은 중간에 변량을 모두 z점수로 변환하는 귀찮은 과정을 거쳐야 하기 때문에 학부에서는 좀더 간단한 아래와 같은 공식도 가르친다. 더 간단하게는 엑셀의 PEARSON함수나 SPSS를 쓰면 된다.
[image]
이 상관계수 r은 그대로 사용되기보다는 한번 제곱한 상태로 사용되는 경우가 많다. 이를 결정계수(coefficient of determination, R2)라고 한다. 이 값이 상당히 중요한데, 이는 측정하는 상관관계가 '''실제로''' 얼마나 큰지 보여주기 때문이다. 무슨 소리냐면 만약 키와 유전자의 상관관계를 연구해서 결정계수 R2이 0.6이 나온다면, 이걸 '''바로 적용해서''' 유전자의 측정된 차이가 키의 측정된 차이(변량)의 60%를 설명할 수 있다는 결론을 내릴 수 있다![6]
물론 뒤에서 보겠지만 상관계수는 단순히 상관관계만을 나타내므로 인과관계까지 추리할 수는 없다.
참고로 r을 약간 변형하면 t점수(t score)로 만들 수 있다. 그리고 이렇게 하면 r을 이용해서 가설검정을 할 수 있다.[7] r을 t로 변환하는 식은 다음과 같다.
[image]

3. 엑셀로 상관 계수 산출하기


엑셀로 상관계수 산출하기 (CORREL 함수)

4. 관련 문서




[1] 사실 인과관계에서도 마찬가지다.[2] 어떤 건물에서 불이 나서 알람이 울리고 있는데 "누군가가 화재 경보기를 누르고 도망쳤구나" 라고 생각하고 불이 나지 않았다고 간주한다면 큰일이다. 화재경보기는 이 경우 명백히 실제 화재와 관계가 있었던 것이고, 이 관계를 무시한 결과는 대규모의 인적/물적 손실로 이어지게 마련이다.[3] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p140[4] 여기서 예측값은 상관 관계를 토대로 만든 회귀직선(regression line)을 통해 예측한 값이다. 그래서 회귀직선이 실제 값을 잘 예측할수록 강한 상관 관계를 가진다고 할 수 있다. 좀 더 자세히 설명하자면, 평균을 이용해 직선을 만들고, 회귀식을 통해 직선을 하나 그으면, 실제 값과 직선 2개가 생기게 된다. 이 중 평균과 값의 차이가 평균으로부터의 편차(SST)이고, 평균과 회귀직선과의 차이는 적합에 기인한 편차(SSR)이며, 회귀식과 실제값과의 차이를 잔차(SSE)라고 부른다. 결정계수는 SSR / SST, 즉 적합에 기인한 편차를 평균으로부터의 편차로 나눈 값으로도 볼 수 있으며, 좀 더 간단하게는 1 - SSE / SST, 즉 1에서 잔차를 편차 나눈 값을 뺀 것으로도 볼 수 있다. [5] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.pp137-9[6] 물론 설명하는 정도를 100% 신뢰하기는 어려운 것이, 잔차에 유의미한 정보가 남아있는 경우가 있기 때문이다.(즉, 회귀식이 완전하지 못할 경우.) 그래서 통계학에서 결정계수를 볼때는 반드시 회귀식의 타당성을 검토한다.[7] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p346