상관관계와 인과관계
- 법률 용어로서의 "인과관계" 를 찾고 있다면 인과관계 항목으로 갈 것.
- 종교 용어로서의 "인과관계" 를 찾고 있다면 인과율 항목으로 갈 것.
- 철학 용어로서의 "인과관계" 를 찾고 있다면 인과 항목으로 갈 것.
1. 상관관계
相關關係 / correlation
어떤 한 통계적 변인[1] 과 다른 여러 통계적 변인들이 공변(共變)하는 함수관계를 말한다.
쉽게 말해서, 변인 x 가 갑자기 확 증가하자 변인 y 도 동시에 확 증가하고, 이후에 변인 x 가 감소하자 변인 y 도 동시에 감소한다면, x 와 y 사이에는 상관관계가 존재한다고 말할 수 있다. 반대로, 변인 x 와 y 가 정반대 방향으로 움직인다 해도, 즉 x 가 증가하면 y 는 감소하고 x 가 감소하면 y 는 증가하는 방식이라도, 이것 역시 상관관계라고 말할 수 있게 된다. 입문자용 통계학 책에서 흔히 예로 드는 것이 '키'와 '발바닥의 넓이'의 관계다.
둘 이상의 변인들이 "같은 방향으로"[2] 움직이는 것을 양(+)의 상관이라고 하고, "반대 방향으로" 움직이는 것을 음(-)의 상관이라고 한다. 임의로 갖다붙인 게 아니라 실제로 상관을 그래프로 그리면 같은 방향은 양의 기울기를, 다른 방향이면 음의 기울기를 갖는다. 만일 두 변인이 제멋대로 움직이면서 따로 놀고 있다면 이는 상관관계가 존재하지 않는다는 의미이다. 선형의 상관관계는 주로 일차함수의 식으로 나타내어질 수 있다.
1.1. 상관 계수
상관 계수 문서 참조.
2. 인과관계
因果關係 / causality
과학계에서 인과관계는 선행하는 한 변인이 후행하는 다른 변인의 원인이 되고 있다고 믿어지는 관계이다.
상관관계는 수학적으로 증명이 가능하지만, 인과관계는 어디까지나 충분한 재현성의 확인, 변인의 배제, 통제집단과 실험집단의 설정과 같은 환경에서 얻어진 '''실험 데이터'''를 통해서 누적적으로 뒷받침될 뿐이다. 인과관계를 규명하는 데에 있어서 '''과학적 방법'''은 사실상 끝판왕의 입지를 굳혀놓고 있으며 이보다 나은 규명방법은 적어도 아직까지는 발견된 적이 없다. 물론 과학적 방법에도 통계학적 검정의 논리가 굉장히 밀접하게 반영되어 있으며, 통계학에서도 상기된 바 있는 회귀분석 같은 것은 인과성을 가정하고 분석을 실시하므로 양자 간에 완벽하게 선긋기를 할 수는 없을 것이다.
변인 x 와 변인 y 가 상관관계가 존재한다는 것이 밝혀져도, 그 사이에 인과성이 존재하는지 판단하려면 좀 더 주의깊은 고찰이 필요하다. 이하에 자세히 서술되겠지만 상관관계는 곧바로 인과관계의 존재를 암시하지 않는다. 단지 인과관계가 성립되기 위한 하나의 필요조건일 뿐. 즉 어떤 상관관계가 확인되면, 잠재적 인과관계에 대해서는 다음과 같은 다섯 가지 경우가 있다.
- 첫째, 처음부터 인과관계 같은 건 없었다. 단순한 우연의 일치였던 것.
- 둘째, 연구에 반영되지 않았던 제3의 변인 z 가 x 와 y 두 변인에게 영향을 끼칠 수 있다.[3]
- 셋째, 인과관계가 존재하기는 하는데, 서로가 서로에게 원인인 동시에 결과가 된다.[4]
- 넷째, 인과관계가 존재하기는 하는데, x 가 원인이고 y 가 결과가 된다.
- 다섯째, 인과관계가 존재하기는 하는데, y 가 원인이고 x 가 결과가 된다.
2.1. 인과관계의 조건 및 추론
무엇와 무엇이 서로 인과관계로 이어져 있음을 판단하기 위해서는, 먼저 다음의 조건들이 성립해야 한다. 이하의 내용은 각종 조사방법론 교과서들이나 사회조사분석사 참고서에도 잘 설명되어 있다.
- 공변성(covariation): 일단 그 두 가지가 '함께 움직이는' 경향을 보여야 한다. 다시 말해, 관찰된 변인 A가 변화할 때 관찰된 변인 B도 함께 변화해야 하지, A가 변화했는데 B는 감감 무소식이거나, A는 가만히 있는데 B가 갑자기 저 혼자 변화하거나 하는 상황에서는 인과관계를 의심하기 힘들다. 일단 공변성이 드러난다면, 물론 여전히 인과관계가 없을 가능성도 있지만, 일단은 인과관계를 의심할 수 있다.
- 선후관계(time order): 시간적으로 어느 하나가 먼저 변화했을 때 다른 하나가 뒤따라 변화하는 관계여야 한다. 즉, 변인 A의 변화에 변인 B의 변화가 수반(contingent)되어야 한다. 이 경우 먼저 변화한 쪽의 변인이 원인이 되고, 나중에 변화한 쪽의 변인이 결과가 되리라는 의심을 할 수 있다. 물론 이것만으로는 무엇이 원인이고 무엇이 결과인지 확신하기는 어렵다. 서로가 서로에게 원인이면서 결과인 관계도 많기 때문이다.
- 비허위성(non-spuriousness): 두 변인이 공변하고, 시간적 선후관계가 존재함에 더하여, 이러한 변화의 양상이 제3의 다른 변인으로는 설명될 수 없어야 한다. 즉 다른 외생변인이 혼입되어 부지불식간에 거짓 인과관계를 형성했다는 대안적 설명이 불가능해야만 한다. 실험법에서는 이 문제를 해결하기 위해서 변인의 통제(control)에 많은 신경을 쓴다.
하나의 방법은, 위의 예시처럼 여러 원인의 후보들이 서로 가능한 한 비슷하면서도 결과는 서로 달라지는 두 사례를 놓고 비교하는 것이다. 서로 다른 결과가 초래되었을 때, 서로 동일하게 작용한 원인 후보는 원인이 아니라고 판단하여 배제하고, 서로 다르게 작용한 원인 후보가 진짜 원인일 거라고 가정하는 것이다. 짧게 말해, '''결과가 달라졌는데 원인이 같을 수는 없다.''' 위의 예시에 적용할 경우, A씨는 준법시민의 삶을 살고 B씨는 범죄자의 삶을 살게 된 이유는, 다른 게 아니라 부모가 적절한 훈육을 하지 않았기 때문이라고 판단할 수 있다. 이것을 종종 '''차이법'''(method of difference)이라고 부르기도 한다.
또 다른 방법은, 위의 예시처럼 여러 원인의 후보들이 서로 극명하게 다르지만 어쨌든 동일한 결과가 나타난 두 사례를 놓고 비교하는 것이다. 서로 동일한 결과가 초래되었다면, 서로 다르게 작용한 원인 후보는 원인이 아니라고 판단하여 배제하고, 서로 동일하게 작용한 원인 후보를 진짜 원인으로 가정하는 것이다. 짧게 말해, '''결과가 같다면 원인도 같아야 한다.''' 위의 예시에 적용할 경우, C씨와 D씨 모두 똑같은 악질 범죄자이지만 서로 무척 상이한 삶을 살아왔는데, 이들이 범죄자가 된 이유는 부모에게 적절한 훈육을 받지 못했다는 공통점에서 찾을 수 있다. 이를 다른 말로 '''일치법'''(method of agreement)이라고 부르기도 한다.
3. 상관관계는 인과관계와 다르다
- 외부 링크: 위키피디아(영어), 위키피디아(한국어), 네이버캐스트
xkcd 552화. '어쩌면'이라는 답변이 걸작이다.
"상관관계는 곧바로 인과관계로 이어지지 않는다", "상관관계만으로는 인과관계를 장담할 수 없다", "상관관계는 인과관계를 암시하지 않는다", "상관관계는 인과관계의 필요조건(necessary condition)이다" 등등 다양한 표현들로 변용될 수 있다. 변인 A와 변인 B가 상관관계에 있다고 해서 한쪽 변인이 다른 한 쪽의 변인의 원인임이 반드시 입증되지 않는다. 원인이 되는 변인이 단 하나가 아니고 수많은 변인들이 원인으로서 작용하는 사례들이 있기 때문이다. 관련 속담으로는 '''"까마귀 날자 배 떨어진다"''' 가 있다.'''"cum hoc, ergo propter hoc"'''
(그것과 함께, 그러므로 그 때문에)
다음의 사례를 보자.[5]
위에 서술된 내용들을 꼼꼼히 읽어보았다면 무엇이 문제인지 금세 짐작할 수 있을 것이다. 주지하다시피 이 연구자는 제3의 변인, 즉 "여름 평균온도" 라는 변인을 전혀 고려하지 않았다. 여름 평균온도가 아이스크림 판매량의 원인 중 하나이고,[6] 여름 평균온도가 익사 사망자 수의 원인 중 하나인 것이다. 보다 정확히 말하면 여름 평균온도의 증가가 피서객의 수를 증가시키고, 피서객의 수의 증가가 다시 익사자 수의 증가로 이어진다고 할 수 있겠다. 익사 사망자 수의 원인으로 꼽을 만한 다른 변인들로는 안전 불감증, 국지 기후의 변화, 해수욕장 및 수영장의 안전교육 현황, 세이프가드 및 해경요원의 수 등이 있을 것이다. 그러나 상관관계에 대한 연구만을 수행해 놓고, 정작 인과관계를 규명할 연구는 진행하지 않은 채 인과관계에 대한 결론으로 이어진 것이다.
위에서는 조금은 우스운 사례를 들었지만, 학술세계와 사회 각 영역에서 벌어지는 열띤 논쟁들 중에도 사실 상관관계와 인과관계의 차이를 감안해야 하는 것들이 많이 있다. 폭력적인 영상을 본 어린이는 폭력적인 사람으로 변하게 될까? 물론 그럴 수도 있겠지만, 폭력적인 것을 원래 좋아하기 때문에 폭력적인 영상을 보는 건 아닐까? 자살을 부추기는 음악을 반복해서 듣게 되면 멀쩡한 사람도 자살하게 될까? 그렇다고 섣불리 판단하기 전에, 애초에 우울증과 스트레스, 약물 남용으로 고통받던 사람이 자살을 부추기는 음악에 빠져드는 건 아니었을까? 종교적 교리가 멀쩡한 사람을 반지성적, 반계몽적으로 만들까? 아니면 거꾸로, 종교 의례나 공동체적 결속이 무지한 사람들에게 더 호소력을 갖고 있는 건 아닐까? (이 주제에 대해서는 이런 방식으로도 생각해 보라는 것이지, 이런 설명이 무조건 정답이라는 주장은 아니므로 유의.)
그렇다면 인과관계를 확인하려면? 답은 간단하다. 인류는 이 질문에 답하기 위해 이미 '''실험'''이라는 아주 믿을 만한 방법을 고안했다. 그리고 이 방법에 의지하면서 인과관계를 하나씩 둘씩 확인하는 사람들이 존재하는데, 우리는 그것을 자신의 직업으로 삼은 사람들을 가리켜서 '''과학자'''라고 부른다.
간혹 통계적 방법 중에서도 '''인과성을 반영하는 통계분석'''을 하기도 한다. 회귀분석과 이를 바탕으로 개발한 심화 분석방법인 경로분석 및 구조방정식 모형(SEM)이 바로 그것. 여기서는 모형 속의 변인들 사이에 화살표를 그을 때 인과관계라는 의미로 화살표를 긋는다. 그 정당화 논리는 회귀분석에서 상관관계를 직접효과와 간접효과로 분해하고, 제3의 변인의 존재를 의미하는 의사효과, 그리고 매개효과(mediation effect)까지도 통계적으로 반영할 수 있다는 점에 있다. 하지만 비판적인 통계학자들은 그것 역시 엄밀히 말하면 '''경로상의 인과관계일 뿐 현실의 인과관계는 아님'''을 들어 반론한다. 현실의 인과관계를 통계적으로 보여주려면 우선 그 경로모형 자체가 100% 완벽해야 하는데, 이는 현실적으로 어떤 연구자에게도 불가능한 요구이거니와, 설령 그런 모형을 완벽히 세웠다고 하더라도 대개는 '''매우 지저분하고 복잡해지기 때문.''' 물론 이렇게까지 엄격하게 따지자면 실험법도 현실적으로는 할 말이 없는 건 매한가지이므로(...) 대개의 실용주의적인 연구자들은 큰 문제 없이 최대한 타당하게 만들어 놓은 통계적 모형이 있다면 대충 인과성이 있을 거라 너그럽게 전제해 주는 편이다.
덧붙여, 변인 x 와 변인 y 사이의 상관관계와 인과관계가 모두 규명되었다고 하더라도, 그것이 변인 w 와 변인 y 사이의 상관관계나 인과관계를 보장하는 것 또한 물론 아니다. 변인 w 와 변인 y 사이의 관계를 확인하려면 다시 통계적 검증을 하든지 실험을 하든지 해서 밝혀내야 한다. 예를 들어, 일부 어르신들은 수액이 만병통치약이라고 잘못 이해하는 경우가 있는데, 이것은 50~70년대에 설사에 걸린 어린이들이 끙끙 앓다가 수액을 처방받은 후 팔팔하게 뛰어다니는(…) 것을 보았기 때문이다. 그러나 위키러 여러분이 잘 이해하다시피, 수액이 설사에 효과가 있다는 것이 곧바로 수액은 다른 병에도 똑같은 효과를 보일 거라는 결론으로 이어지는 것은 아니다.
실제로, 한때 자전거를 타는 것은 건강에 몹시 좋지 않다는 주장이 퍼진 적이 있었다. 1897년에 《National Reviews》 에 등재된 주장으로서, 의학적 관점에 따르면 사이클 경기 선수들 사이에서 불면증이 퍼져 있고, 자전거를 타는 여성들 사이에서 맹장염, 두통, 갑상선염 등이 발생하는 경향이 있다는 것. 그러나 이러한 사례들은 임상적으로 어떠한 인과관계를 찾아볼 수 없는 것들 뿐이며, 오늘날 자전거를 타는 것이 이러한 문제를 일으킨다고 주장하는 사람은 어디에도 없다. 페미니즘 운동가들은 이것이 여성들로 하여금 자전거를 타지 못하게 하려는 남성들의 압제[7] 때문이라고 종종 주장하기도 한다. #
이를 비판하기 위해 아무 연관이 없는데 비슷하게 생긴 그래프들을 모아놓은 사이트도 있다
3.1. 예측에 있어서의 상관관계와 인과관계
그러나 예측을 위해서는 인과관계가 있음을 반드시 입증해야만 하는 것이 아니며, 상관관계의 존재만으로 충분하다. 예를 들어 발전소를 운영하는 기업의 주식가치가 남미의 바나나 생산량과 강한 상관관계를 가지고 있다고 하자. 그렇다면, 바나나 생산량을 사용해서 발전소 기업의 주식가치를 예측하는 것은, 상식적으로는 둘 사이에 아무 인과관계도 없지만, '''실질적으로는 유용한 방법'''일 수 있다. 물론 이런 예측은 "바나나-주식가치"간의 상관관계를 만들던 구조적 요인이 변경된다면 틀리게 된다. 그럼에도 불구하고, 이 예측은 주어진 시점에서 최선의 예측이다. 러셀의 칠면조는 이 부분을 꼬집는 우화로 볼 수 있다. Correlation, causation and forecasting[8]
또한 인과관계에 대한 정보가 없더라도 상관관계에 대한 정보가 있다면 그것에 따라 행동하는게 합리적일 수 있다. 다시 위의 아이스크림 예시로 돌아가보자. 우리는 생활하면서 얻은 상식으로 인해 아이스크림이 뭐고 익사가 무엇인지 알고 있으며, 그래서 위의 예시를 보고 비웃을 수 있는 것이다. 그런데 만약 지구에 대해 아무것도 모르는 외계인 연구자라면 어떨까? 그에게 아이스크림 판매량과 익사 사망자 수라는 두 가지 자료만 주고서 사망자 수를 줄이는 방법을 제시해보라 한다면, 그는 아이스크림 판매를 줄여 보라고 할 수밖에 없다.
물론 이는 인과관계와 상관관계를 혼동한 것으로, 아이스크림 판매가 사망자 수의 '''원인'''이라고 잘못 해석한 것이다. 하지만 이 외계인 연구자는 지구인의 생태에 대해 '''아무것도''' 모르며, 따라서 '지구인은 아이스크림을 먹으면 물 속에서 호흡을 할 수 없게 된다' 라고 충분히 생각할 수 있다. '''우리가 이 상황이 인과관계가 아니라는 것을 아는 이유는 이 두 가지 자료 외에도 우리의 경험이라는 제3의 자료가 있기 때문이다.''' 두 변수의 관계가 인과관계가 아닌 상관관계라고 인지하는 것은 이 연구자가 실제 지구인이 어떤 생물학적 구조를 가지고 있는지 등을 직접 보고 확인한 다음에야 알 수 있는 것이다.
그리고 이런 잘못된 개입을 통해 이 외계인이 아이스크림 판매량과 사망자 수 사이의 관계를 좀 더 잘 파악하고 이것이 인과관계가 아니라 상관관계임을 알고 나면, 이 외계인은 '''지난해''' 지역별 아이스크림 판매량 통계을 이용해 판매량이 많은 지역에 수상구조요원이나 수영을 할 수 있는 순찰인원을 투입할 것이다.
즉, 단순히 지식을 탐구하는 연구자의 입장에서는 처음의 상관관계가 인과관계가 아닐 가능성이 높은 것을 알고 있으며 이 관계를 인과관계로 해석하는 행위를 경계하는 것이 당연하지만,[9] 당장 어떤 대안을 내놓아야만 한다면 일단 상관관계에 기반한 제안을 하고 개입을 통한 조치가 그 상관관계를 가능케 하는 구조가 변하지 않기를 기도하는 수밖에 없다. 물론 이렇게 일단 줄여본 다음에는 일종의 '실험'이 되므로 이것이 인과가 아닌 상관관계일 뿐이며 이런 개입으로 인해 상관관계가 깨진다는 것을 알게 될 것이다. 따라서 결국 외계인 연구자는 반복되는 실험을 통해 정확한 인과관계를 파악하고 위에 언급한 올바른 대처를 시도해볼 수 있을 것이다.
요약하자면, 정보가 제한된 상황에서의 판단을 가정할 경우 상관관계만으로 추론하는 것도 '''그나마''' 합리적인 방안일 수 있다.[10]
이와 관련된 (논란이 될 법한) 실제 사례를 들자면, 북미지역의 한 경찰이 여성을 대상으로 한 성범죄가 증가하자 여성들이 남자들의 성욕을 불러일으킬 수 있는 창녀(slut)같은 복장을 입지 말아야 한다고 말하여 슬럿워크를 유발하고 여론의 집중포화를 맞은 적이 있다. #[11] 그런데 예측은 상관관계로 충분하다는 점을 생각해보면 그의 발언은 '단순 예측'의 차원에서는 부적절하다고 보기 어려운 부분이 있다.[12]
경찰의 주장은 성욕이 발생하면 성범죄가 증가한다는 상관관계 혹은 잘못 파악한 (거짓)인과관계(성욕 증가->성범죄 증가)에 기초하였다. 당연하게도, 성욕이 생긴 남성들이 범죄를 선택하는 비율을 감소시킴으로서 저러한 상관관계를 축소시킬 수 있다. 그리고 당연하게도, 실질적으로 성범죄 실행 여부는 그 순간 그 상황에 처한 남성들 스스로가 내리는 것임은 경찰도 잘 알고 있다. 그리고 이 선택은 개별 남성들의 성장 과정, 경제 수준 등 여러 가지 요인에 의해 결정된다. 여기서 문제는 경찰의 입장에서는 이 요인들을 통제할 방법이 별로 없다는 것이다. 더 많은 경찰 인력을 투입하는 것은 돈이 들며, 경찰은 치안예산을 증가시킬 수 없다. 창의적인 방법을 사용해 똑같은 예산을 가지고 더 효과적인 범죄예방을 할 수 있다면 좋지만, 그런 방법은 그렇게 쉽게 생기는 것이 아니다. 결국 경찰의 입장에서 제시할 수 있는 범죄를 줄일 것으로 예측되는 최선의 방법은 여성들이 남성의 성욕을 불러일으키는 복장을 입지 않도록 독려하는 것일 수밖에 없다. 그리고 성욕이 생긴 남성들이 범죄를 선택하는 비율을 결정하는 구조적인 요인들에 변화가 없다면, 이는 실제 효과적인 방법이 될 것이다.
다만 위의 논리는 위의 외계인과 마찬가지 상황을 가정하고 있다는 점에서 매우 한계가 뚜렷하다.
위 예시의 외계인과 달리 우리는 성욕에서 성범죄까지 이어지는 연결고리를 훨씬 더 정확하게 파악하고 있다.
- 실제 성범죄 피해자들의 옷차림의 노출 정도는 기타 시민들의 옷차림의 노출 정도에 비해 뚜렷하게 심하지 않다. 즉 성욕과 성범죄 사이에 성범죄 유발과 관련된 매개변수가 존재한다.
- 성범죄는 성욕 이외에도 지배욕이나 좌절감, 의존 및 권력관계[13] 등의 다양한 원인으로 인해 발생한다.
- 성범죄 빈도를 낮추기 위해 일단 여성들을 싸잡아서 "정숙하게 입으라" 고 말해 보는 것은, 일단 남성들을 싸잡아서 "성범죄 좀 저지르지 마라" 고 말해 보는 것만큼이나 똑같이 '실질적' 이고 '유용' 한 아이디어일지는 몰라도 똑같이 부적절하다.
위 경찰이 이런 점들을 인식하고 더 현명한 판단을 했다면, 여성들에게 옷을 정숙하게 입으라고 말하기 전에 먼저 '남성들이 자신의 성욕을 조절하는 데 도움을 주는 변인들' 과 '여성이 욕정을 주체하지 못하는 남성으로부터 자기방어를 하는 데 도움을 주는 변인들' 을 추가로 탐색했을 것이다. 아마도 이 경찰은 별도의 범죄기록 자료를 열람하여, 실제 성범죄 피해자의 절대 다수는 청바지나 박스티 등등 그다지 야하지 않은 옷을 입고 있었다는 점을 깨닫게 되고, 자신의 가설적 모형에서 '옷차림의 노출 정도' 변인을 제거했을 것이다. 좀 더 성실한 경찰이었다면 그는 아마 자신의 모형의 한계를 인식하고, 성욕 이외에 성범죄를 유발시키는 다른 잠재변인들을 추가로 탐색하려 노력했을 수도 있다.
사실 이 모든 것은 굳이 자신이 치안예산을 들여서 직접 할 필요가 없으며,이미 관련문헌이 산더미처럼 쌓여 있어서 경/검찰 내부 통계보고서나 구글 스칼라를 한두시간 정도만 찾아봐도 쏟아져 나오는 내용이다. 실제로 '성범죄 원인 연구'나 'sex crime cause research'라고 검색해보면 여러 논문과 보고서를 바로 찾아볼 수 있다. '''이 검색에 드는 시간은 단 5초.'''
결국 문제의 경찰은 성범죄 방지를 위한 개선책을 제시하려 노력했다기보다는 그저 자신만의 막연한 지레짐작을 말했을 뿐이며, "정숙하게 입으라"는 것은 인력과 예산의 문제가 아니라 경찰으로서의 직업적 소임을 다하지 못한 자의 실언에 지나지 않는다. 정치적 올바름의 차원에서도, 옷을 덜 야하게 입으라는 것보다는 '자신의 성욕을 조절할 줄 아는 시민의식'을 시민들이 길러야 한다고 말하는 것이 더 나은 방법이다.[15]
요약하자면, 위 경찰은 범죄율이 낮은 사회를 만드는 것은 필연적으로 구조적인 변화가 동반되어야만 한다는 점을 무시하였다. 즉 기존의 범죄발생을 야기하는 연결구조를 바꾸려던 것이 아니라, 자신은 범죄 예방을 위해 아무 노력도 하기 싫으니 피해자들이 알아서 해라는 식의 태도를 보였다. 그렇기에 저 경찰은 지구인임에도 불구하고 위에서 부족한 정보를 바탕으로 조언해야만 했던 외계인 연구자와 같은 처지가 되고 비웃음과 욕설의 대상이 된 것이다.
3.2. 상관관계와 인과관계의 구분
위 문제들은 상관관계와 인과관계 사이의 구분이 생각보다 명료하지 않으며, 이론적 엄밀성보다는 실용성에 기반하는 것임을 보여준다.
X가 Y의 원인이라는 것, 즉 인과관계가 있다는 것은 보통 다음과 같은 성질들을 만족한다고 생각해볼 수 있다.
- X가 Y보다 시간적으로 먼저 발생한다.
- X가 있으면 Y도 있고, X가 없으면 Y도 없다.
- 위 1,2번과 관련하여, X보다 X의 역할에 더 적합한 변수 Z가 없다. 예를 들어 X가 Y의 원인이라 생각했지만 진짜 원인은 Z였고, Z가 Y보다는 X에 더 신속하게 영향을 미치기 때문에 X가 변하면 Y도 변하는 것으로 보이는 경우를 들 수 있다. 흔히 말하는 혼란변수 혹은 교란변수(confounding variable)이다.
- 위 1, 2, 3번과 관련하여, 이러한 관계가 충분히 안정적이다. 즉 시간이 지나면서 이러한 관계가 사라지거나, 다른 변수의 개입에 의해서 관계가 변동하지 않는다. 다만 다른 변수의 개입이 이런 관계에 영향을 주는 경우더라도 그 변수와 이 관계 사이의 관계가 안정적이라면 X는 Y의 원인 중 하나라고 볼 수 있을 것이다. 예를 들어 블랙-숄즈 모형을 보면 옵션 만기까지의 시간, 행사가와의 차이 등은 분명히 옵션가격 변동의 원인이다. 그러나 이 변수들이 옵션 가격에 미치는 영향은 다른 변수들의 값에 따라 변동한다.
위의 아이스크림 예시로 다시 돌아가보면, 인과관계는 '높은 기온 → 수영장 출입 인원 증가 → 사고 발생 건수 증가'라고 볼 수 있다.
그리고 높은 기온이 발생하면 아이스크림 매출도 늘기 때문에 아이스크림 매출이 사고 발생 원인이라고 우리의 외계인 연구자는 착각한 것이다.
그런데 여기에서 말하는 인과관계도 엄밀히 따질 경우 인과관계라고 보기는 어렵다. 예를 들어 기온이 높아지면 수영장에 출입하지 않고 집에서 에어컨을 켤 수도 있고, 수영장에 출입하는 사람이 많아져도 전국적으로 수영장 안전교육 등을 실시한다면 안전사고 비율은 낮아져 사고 발생 건수가 오히려 낮아질 수도 있다. 하지만 그렇다고 해서 이런 사이 사이의 중간변수들을 모두 고려해서 인과관계를 수립해야만 할까? 그렇게 하자면 관계의 흐름은 너무나도 복잡해질 것이다.
즉 어떻게 보면 인과관계는 특정한 조건을 만족하는 상관관계의 일종이라고 볼 수도 있는 것이다.
사실 실험의 경우도 이런 비판에서 자유로울 수만은 없는게, 아무리 무작위 표본 추출을 통해 여러 변수들의 영향을 없애고 원하는 변수만 조절하여 그 변수의 영향을 찾는다고는 하지만, 진정 무작위 표본 추출이 되었는지는 정확히 알 수 없는 노릇이기 때문이다. 이론적으로 무작위 표본 추출이 이루어진다면 관심대상이 아닌 변수들의 영향을 통제할 수 있는 것은 사실이다. 그러나 설문조사시 전화번호 목록에서 무작위 추출을 통해 조사한다면, 전화가 없는 사람들은 조사 대상에서 빠지게 된다. 이렇게, 무작위 표본추출을 하더라도 의도치 않은 구조적 문제가 생길 가능성은 제외할 수 없다. 판타지스러운 예시이지만, 예를 들어 2100년까지는 지금의 물리 법칙이 통용되지만 2101년부터는 모든 사람들이 파이어볼을 쓸 수 있도록 이 세상이 설계되었다 하자. 그러면 2100년이 되기 전까지 행해진 물리실험의 결과는 2101년 이후의 물리법칙을 구조적으로 제외해버리는 것이 된다.
사족이지만, 그럼에도 불구하고 지금까지의 물리 법칙을 2017년 현재 시점에서 받아들이는 이유는, 그 시점까지 해당 물리 법칙이 반증의 가능성이 있고 반증의 시도가 수없이 이루어졌음에도 불구하고 반박되지 않았기 때문이다. 이런 반증을 위한 노력들과 관련된 자세한 내용은 과학적 방법론 참고. 원래 이야기로 돌아가자면, 상관관계는 좋은 상관관계와 나쁜 상관관계가 있으며, 좋은 상관관계를 인과관계라 칭한다고 할 수 있을 것이다.
3.3. 관련 문서
4. 관련 문서
[1] 이는 조작적 정의를 통해서 양적으로 측정 가능해야 한다. 질적 데이터는 통계적으로 다루기가 불가능하거나 극도로 까다롭다. 예를 들어, "운동 실력과 친구들 사이에서의 인기" 의 상관관계를 연구하고자 한다면, 각각을 어떻게 정의해서 측정해야 할까? 운동 실력은 무엇을 기준으로 평가해야 할까? "그 아이는 완전 인기가 있어요!" 라는 증언과, "그 아이는 엄청 인기쟁이예요!" 라는 증언 중 어느 쪽이 더 "높은" 인기를 보여주는가?[2] 이처럼, 설명의 편의를 위해 잘 정의되지 않은 표현을 사용하는 것을 양해 바란다.[3] 하단에 한번 더 소개할 의사효과(spurious effect)가 바로 이것이다. 일단 의사효과로 판명되면, 이 역시 인과관계로 취급하지 않는다.[4] 예컨대 지역별 출산율과 지역별 산부인과 수를 고려할 수 있다. 어떤 동네 사람들이 자녀를 안 낳기 시작하면, 장사가 안 되는 산부인과 의사들이 영업을 접고 다른 곳으로 전출하거나 혹은 직종을 바꾼다. 그 결과, 동네에 산부인과가 없어서 육아여건이 열악하다는 것을 알게 된 예비 부모들이 더더욱 자녀를 낳지 않는다. 그리고 그 결과, 다시 더 많은 산부인과 의사들이 폐업하게 되는 악순환이 벌어진다. 고령화 문제로 어려움을 겪는 농어촌에서 어떻게든 보건소 산부인과에는 죽어라 예산을 퍼붓는 이유가 바로 이것이다.[5] 참고로 시중에 나와 있는 《시작하세요! 데이터 분석 with R》 초판의 211페이지에서 이 사례를 고스란히 복붙하고 "출처: 나무위키" 를 달아놓았다(…).[6] 아이스크림 판매량의 원인으로 꼽을 만한 다른 변인들로는 광고효과, 시장의 확대, 신제품 개발 등이 있다. 경제학을 전공한 위키러라면 단시간 내에 숱한 변인들을 찾아낼 수 있을 것이다.[7] (이들에 따르면) 당시 남성들의 관점에서는 치마를 입은 채 자전거를 타거나 자전거 페달을 밟는 다리의 움직임이 정숙해 보이지 못하고(…) 남편 몰래 불륜을 범하러 멀리까지 나갈 수 있는 기회를 제공해서 그렇다나. [8] 한 위키러는 이것이 '상관관계만으로 인과관계를 가정하는 행위'라고 표현했는데 이는 틀린 표현이다. 특정 변수에 대한 예측을 넘어 해당 변수를 조작하려고 한다면 구조적 변화가 동반되므로 인과관계의 필요성이 생기지만, 단순 참고를 위해 변수값을 예상하는 것은 구조변화가 동반되지 않으므로 인과관계를 필요로 하지 않는 것이다.[9] 지적인 진실성과 엄밀성을 견지하고자 한다면, 인과관계를 상정할 수 있는 어떠한 단서조차 없는 일반적인 상황에서라면 아예 솔직하게 "우리 손에 있는 건 그저 한 시점의 상관관계 데이터뿐이고, 이것만으로 인과관계를 분석하기엔 택도 없으니, 우리는 인과관계 분석은 포기하겠다" 고 훨씬 더 신뢰감 있게 보고하는 편이 낫다. 당장 여러분이 쓸 학위논문이나 회사 상사에게 올릴 마케팅 보고서는 그렇게 써야 한다. 정말 까다롭게 구축한 SEM에서 가정되는 인과성조차 학자들의 맹폭격을 받는 게 비일비재한 상황에서 "상관관계만으로 인과관계를 가정하는 것은 유용하다" 는 언급은 심각하게 나이브하게 보일 수 있다.[10] 엄밀히 말하면 이 합리성은 논리적 무결성을 의미하는 것이 아닌 경제적 합리성, 즉 제한된 정보자원 하에서 목적을 달성하기 위해 가장 가능성이 높은 방법을 택한다는 의미의 합리성이다. 전자의 의미를 택한다면 이는 합리적인게 아니라 비합리적인 행동이 된다.[11] 여기서는 실제 사례를 따라 여성 피해자의 입장에서 서술되어 있지만 당연하게도 남성 또한 성범죄의 피해자가 될 수 있다.[12] 다만 범죄 문제는 단순 예측 이상을 요구하므로 경찰의 발언은 부적절했다. 이에 대해서는 후술.[13] 예컨대 어떤 목사들이나 사이비 종교 교주들이 여신도들을 강간하는 경향은 그들이 유독 성욕이 강해서라기보다는 여신도들이 그들에게 정신적으로 크게 의존하고 있기 때문이다.[14] 물론 이런 지식을 탐색하는 행위 자체에 들어가는 노력과 비용이 있다. 하지만 이런 지식탐색에조차 비용을 지출하지 않겠다고 한다면, 그것은 더 효과적인 범죄 예방을 위한 투자를 하지 않겠다는 말과 일맥상통한다. 게다가 후술하겠지만 이게 그렇게 엄청난 노력을 요구하는 것도 아니고 한두시간의 구글검색으로 찾아볼 수 있는 수준의 내용이다. 따라서 범죄 예방을 주요 목표 중 하나로 갖는 경찰이 이런 핑계를 대는 것은 일종의 직무유기라고 볼 수 있다.[15] 시민의식을 길러야 한다는 말은 어떻게 보면 원인을 해결하는 것으로 생각할 수 있으나, 그 시민의식을 어떤 경로를 통해 기를 것인가, 그리고 시민의식을 기르는 것의 비용 대비 효과가 어떻게 되는가에 대한 고려가 전혀 없으므로 옷을 덜 야하게 입으라는 말과 다를바 없는 공허한 조언이다.