선택편향
1. 개요
'''Sampling bias'''
'표본 편향'이라고도 한다. 상당히 많은 자료들을 검토하였으나 그 자료를 선택하거나 해석함에 있어 중요한 측면을 간과함으로써 잘못된 결론에 도달하게 만든다. 한때 위키 효과로 인해 '근시안적 귀납'으로 번역되었고 '비형식적 오류'에 속해있었으나, 정식 번역 용어가 아닐뿐더러 논리학 분류가 아닌 심리학, 통계학 분야이므로 유의할 것.
2. 일화
이와 관련된 사건으로 1936년 미 대선의 설문조사가 있다. 당시 미 대선은 공화당의 랜던 후보와 민주당의 루스벨트 후보의 대결이었다. 이때 리터러리 다이제스트(Literary Digest)라는 잡지사가 무려 1,000만 명의 유권자에게 설문지를 우송한 뒤 약 240만 명으로부터 응답을 회수하였는데, 회수된 설문지에서는 루스벨트가 43%의 지지율밖에 못 얻는 것으로 집계되었고, 이에 따라 이 잡지사는 랜던의 승리를 예상 발표하였다. 그러나 실제 선거 결과는 민주당의 루스벨트 후보가 62%라는 압도적인 지지로 당선되었다. 이는 이 리터러리 다이제스트誌의 구독자들이 부유층이었기 때문인데, 당시는 1929년의 대공황의 여파로 경제적 불황이 심한 시기였다. 뉴딜정책이라는 막대한 공공사업을 추진하려는 재원 마련을 위해 민주당은 세금을 많이 걷는 정책을 펴고 있었고, 무거운 세금에 불만을 품고 있던 부유층의 지지기반을 위해 공화당은 이를 반대하였다. 결과적으로 소득이 낮은 계층은 민주당을, 높은 계층은 공화당을 선호하였다. 리터러리 다이제스트사가 뽑은 '부유층 위주의' 표본 속에는 루스벨트 후보 지지자가 전체보다 적었기 때문에 루스벨트가 선거에서 지는 것으로 나올 수밖에 없었다. 물론 실제로는 루스벨트 후보 지지자가 더 많았기 때문에 당선된 것은 루스벨트였고. 이것은 통계학에서도 표본의 대표성이라는 주제로 상당히 조심하고 있는 부분이며, 표본표집 방법으로 다양한 기법들이 개발되어 있는 상태이다. 따라서 논문과 같은 매체에서는 이런 오류가 나타나는 경우가 드문 편이다. 만일 오류가 발견된다면 학계에 머지않아 숱한 반박 논문들이 쏟아져 나온다.
"...불행히도 개인들만 표본의 크기와 대표성에 무신경한 게 아니다. 마땅히 그런 부분을 잘 알아야 하는 조직도 종종 그런 행태를 보인다. 주목할 만한 사례로 《리터러리 다이제스트》(Literary Digest)가 우편 설문 조사에 의거하여 루즈벨트가 1937년 대통령 선거에서 큰 표 차로 패배할 것이라고 예측했던 사건을 들 수 있다. 사실 설문지를 작성해서 반송한 사람들은 23%에 불과했고 그들은 전반적으로 미국 시민 중에서 부유층에 쏠려 있었다."
- 《비합리성의 심리학》, 스튜어트 서덜랜드, p.283
3. 상세
사회과학 분야의 학자들이 어떤 대상을 연구할 때, 연구의 성격상 그 대상이 "대한민국 국민 전체"나 "모든 남성", "모든 대학생" 과 같이 일개 연구실에서 다루기가 곤란할 정도로 거대한 집단인 경우가 많다. 이 때문에 사회과학자들은 통계학의 힘을 빌려서 이 문제를 해결하려 한다. 여기서의 통계학은 "추론통계학" 이라 하여, 전체 집단을 모두 일일이 조사할 수 없기 때문에 일부만 뽑아내서 표본으로 삼아 연구하고, 그 표본에서 얻어진 결과를 전체 집단의 결과와 대략적으로 동일시하는 것이다.
당연히, 이 표본의 결과가 전체의 결과와 아주 똑같을 수는 없고 거의 비슷해지게 만드는 게 목표인데, 표본을 잘못 선정하거나 지나치게 적게 선정하면 전체의 결과와 어긋날 가능성이 점점 더 커지게 된다.[1] 이 중에서 표본편향이라 하면 대체로 표본을 의도적으로 잘못 선정(=표집, 추출)했다는 의미가 된다.
잘못된 표본선정으로 인해 발생할 수 있는 왜곡은 의외로 흔하다. 몇 가지 예를 들자면 다음과 같다.
→ 세계적으로 노인들의 정치 참여도 증가와 우경화는 일관되게 관찰되는데, 평일 낮에 가정집 전화로 물어보면 노인들 외에는 응답하기 힘들어진다.
- 예시 B
- 전국 서점의 월간 도서 판매량을 조사한 결과, 연구자들은 한국인들이 놀랍도록 책을 구매하지 않는다는 사실에 충격을 받았다.
→ 대형 서점은 전체 서점의 일부만을 차지하지만 전체 책 판매량의 대다수를 차지한다. 즉 표본에 대형 서점이 제대로 포함되지 못한 것. 이런 경우에 쓰는 것이 주로 층화추출법(stratified sampling)이다.
- 예시 C
- 동성결혼에 대한 입장을 묻기 위해 길거리 인터뷰를 해서 부정적인 응답을 얻었다. 연구자는 일요일 오전에 강남 대형교회 앞 길거리에 서 있었다. 한편, 이 연구자는 셧다운제에 대한 입장을 묻기 위해 길거리 인터뷰를 해서 이번에도 부정적인 응답을 얻었다. 그는 중학교 교문 앞에 서 있었다.
- 두 연구자가 한국인들이 가장 좋아하는 스포츠 종목이 무엇인지를 알아보기 위해 길거리 인터뷰를 하였다. 연구자 A의 인터뷰 결과 야구를 좋아한다는 응답이 압도적으로 많았다. 그러나 연구자 B의 인터뷰 결과 축구를 좋아한다는 응답이 압도적으로 많았다. 연구자 A는 잠실 야구장 출입구 앞에 서 있었고, 연구자 B는 상암 월드컵경기장 출입구 앞에 서 있었다.
→ 이와 같은 길거리 인터뷰는 편의추출법(convenience sampling)이라 해서 탐색연구 이상으로는 학술적 가치가 없다. 불행하게도, 어디서, 얼마나, 어떻게 설문을 했는지만 숨긴다면 이것으로도 대중적 여론을 왜곡하는 것은 금방이다.[2]
보다시피 '''표본편향은 언론플레이의 핵심이기도 하다.''' 각종 여론조사와 매스미디어, 정당 발표자료, 오피니언 리더들이 이렇게 편향된 조사를 가지고 (그것이 어떤 결점을 지닌 조사로 얻어진 데이터인지는 쏙 빼놓은 채) 자신에게 동조하는 사람들과 함께 설레발을 치기에 바쁘다. 그리고 이렇게 분열된 여론은 제각기 자신이 선호하는 방향으로 다시 확증편향을 일으킨다... '''안타깝게도 여론의 전파라는 것이 이처럼 많은 결점을 보이고 있다.''' 그리고 이는 당장 한국갤럽 같은 여론조사 기관들의 근로자들조차 인정하는 부분이다. 그들은 마음만 먹는다면 조사를 의뢰한 단체에게 최대한 좋게 결과를 보여줄 수 있다. 대단한 것도 아니고 통계의 아주 세부적인 조건들만 쓱싹 바꾸면 금세 가능해지는 일이다. '''사회통계에 능숙한 사람일수록 잘 모르는 사람들을 속이기는 그만큼 쉽다는 것을 그들도 잘 알고 있는 것이다.'''일상적으로 이런 오류가 발생하는 경우가 있다. '패배한 판을 제외하면 승률 100%' 등의 밈이 이에 해당한다. 음모론에서도 상당히 높은 확률로 등장하곤 한다.
4. 논증에서 근거로 사용되면
5. 관련 문서
[1] 예를 들어, 대한민국 20세 이상 남성들의 평균 키를 조사한다고 하자. 그런데 달랑 5명(…)만 뽑아서 그들 사이의 키 평균을 낸다고 한다면, 그것이 얼마나 믿을 만할까? 기껏 평균을 냈더니 186cm 키로 나왔다면, 그것을 바탕으로 대한민국 남성들은 전부 위너! 라고 판단할 수 있을까?[2] 사실 정치인들이 "민심을 듣겠다" 며 지역구를 돌아다니는 것도 이와 유사하다. 재래시장에 가면 대형마트 비정규직 노동자들의 의견을 들을 수 없고, 자기 당 텃밭에 가면 남의 당 텃밭의 유권자들이 느끼는 바를 이해할 수 없다. 게다가 위에서 설명한 사회적 선망 편향이 작동하여, 유권자들은 한없이 공손하고 호의적인 태도로 정치인들을 대할 가능성이 높아지게 될 것이다.(…)[3] 전화를 놓고 살 정도면 어느 정도의 생활수준은 된다는 뜻이다.[4] 자와 막대기의 온도를 변화시킬 요인을 기온으로 정했다는 게 문제이다. 그러니 쇠자와 쇠막대기가 동시에 팽창 또는 수축한 것이다. 올바른 실험을 하려면 '''쇠막대기만 가열하거나 냉각하면서''' 길이를 측정해야 한다. 혹은 쇠자를 가열 / 냉각해도 괜찮다.[5] 물가 상승을 무시하고 있다. 교사 월급이 2배 오를 동안 물가는 그대로였는가?[6] 인터넷 쇼핑몰 거래액이 증가할 동안 인터넷 이용자 수도 동시에 증가하고 있었고, 결정적으로 '''인터넷 쇼핑몰의 수도 동시에 증가했다'''는 사실을 간과하고 있음으로써 오류를 범하고 있다.