통계

관련문서 : 통계 관련 정보

'''언어별 명칭'''
한문	統計
영어	statistics, stats
프랑스어	statistique
독일어	Statistik
러시아어	статистика
일본어	統(とう計(けい

1. 개요

2. 함정

2.1. 통계 왜곡

2.2. 반대의 경우

3. 통계 소프트웨어

4. 관련 문서

1. 개요

대한민국 통계청, 통계자료 한번에 꿰뚫기.wmv

국어사전에서는 통계를 '한 곳에 몰아서 어림잡아 계산함'이라고 정의하고 있다.[출처] 또한 국어사전에서는 통계에 대하여 현상을 보기 쉽게 일정체계에 의해 숫자로 나타낸다고 정의하고 있다. 이와 달리 통계학은 학문적으로 더 자세히 정의된다. 통계학은 수량적인 비교를 기초로 많은 사실을 다양한 방법으로 관찰, 처리를 연구하는 학문이라고 정의되고 있다.

2. 함정

2.1. 통계 왜곡

[image]
자세한 내용은 통계의 함정 문서 참고.

거짓말에는 세 가지 부류가 있다. 거짓말, 새빨간 거짓말, 그리고 '''통계'''
(There are three kinds of lies: lies, damned lies, and statistics.)

- 벤저민 디즈레일리

통계는 비키니와 같다. 통계가 드러내는 것들은 매우 흥미롭지만, 통계가 감추고 있는 것들은 그보다 더욱 흥미롭다.

- 원저자 미상#

통계의 특성을 악용함으로 통계를 왜곡해서 사람들에게 보여주는 사례들을 주변에서 심심치 않게 볼 수 있으며, 셀 수 없이 많은 광고와 기사가 자신의 억측을 사실이라고 주장하기 위해 통계를 견강부회식으로 사용한다. 가장 흔한 것은 상관관계의 사건을 마치 인과관계인 것 처럼 서술하는 것. '운전중 커피 소모량과 고속도로 교통사고 사망률이 비례하더라'라는 주장은 마치 '커피가 교통사고의 주범이다'라고 들리지만, 실은 커피를 대량으로 마셔가며 잠을 쫒아 운전하는 사람은 졸음 운전의 위험성이 있는 사람이고, 따라서 교통사고율이 높은 것이다. 즉 공통 원인을 가져서 어느 정도 상관관계는 있지만 그 자체로는 독립적인 두 현상에 인과관계의 의미를 잘못 부여한 것.
이 사례가 우습게 들리는가? 당장 당신이 보게 될 광고나 각종 기사들을 곰곰이 분석해보자. 이 사례보다도 얼토당토 않은 주장들이 난무하고 있다는 것을 알 수 있을 것이다.
왜곡과는 별도로 통계는 예측 혹은 거짓말 에서 못 벗어난다. 통계를 하는 이유가 전수조사, 즉 전부 검사하기 힘들고 돈이 많이 깨지기 때문이다. 즉 일부만 검사해서 전체를 추론한다. 반대로 얘기하면 전수조사 결과는 일단은 100% 확실한 진실이다. 이 일부 조사를 누가 언제 어떻게 무슨 방법으로 하느냐에 따라 결과가 바뀌니 결국 딱 나오는 건 숫자 뿐이다. 물론 어떤 자료던지 그걸 어떻게 해석하는 가는 사람이 하는 일이니 결국 예측 혹은 거짓말에서 못 벗어난다. 사실 이게 통계에서 '''가장 잘 범하는 오류''' 중 하나이며, 미국 대통령 선거 예측이 완전히 뒤집어 진 일도 있었다. 정확하게는 1936년 재선때, 리터러리 다이제스트라는 잡지사에서 전화명부, 자동차 소유주 명단 등을 이용하여 표본을 간추린 뒤 여론조사를 한것으로 랜든의 압승을 예측했는데 문제는 이게 '''부자 위주'''(랜든 지지자 편중)의 표본이었다는 것이다.(대공황 당시었으니 전화기 있고 자동차있는 사람의 상당수는 돈있는 사람인 상황) 결국 서민층이 대부분인 실제선거에서 역관광당했고, 리터러리 다이제스트는 1938년에 망해서 타임지에 흡수되었다.
비슷한 사례로 20대 총선 당시 여론조사상 새누리당(자유한국당의 전신)이 크게 우세하고 더불어민주당이 참패를 면치 못할 것으로 보였으나, 이 여론조사에 문제가 있었던 것이 국회의원 선거의 경우는 지역구마다 각각의 조사를 해야 하는 데다가, 주말은 휴일이기 때문에 조사원들도 쉬어야 하므로 평일 오전에 100% 유선전화에 무선표집(Random Sampling)을 할 수밖에 없었고[1], 이러한 이유로 인하여 새누리당 지지세가 높은 노년층이 주로 여론조사에 참여한 덕에 새누리당의 지지율이 뻥튀기되어 나타난 적이 있었다. 물론 실제 결과는 여론조사와 달랐으며 결국 민주당이 근소하게 승리하였다. 다행히 안심번호라는 제도가 정착된 덕에 7대 지선에서는 그렇게 틀려대던 기초자치단체장 선거마저 상당수 맞추었고[2] 21대 총선에서는 여론조사에서 높은 적중률을 보여주었다.[3]
게다가 이 표본에는 표본이 되는 대상 뿐만 아니라 '''조사 기준 자체'''도 포함되는지라 어떤 기준을 표본으로 설정하느냐에 따라 결과 및 해석이 천차만별로 나올 수 있다.

심각한 문제로 넘어가면, 게임규제 항목의 수출액 관련 통계가 규제 반대론의 근본적인 이유가 되지 못하는 것도 이 때문. 게다가 애초에 사람이 조사하는 것이니 '''심리적인 편중'''도 배제할 수 없고, 조사가 자동화되거나 자연현상 조사 같은 비교적 객관적인 것마저 '''지역적 편중'''을 배제할 수 없다. 대표적인 편중의 예가 대형마트 규제 논란 관련 통계.[4] 게다가 '''표본 자체가 거짓말을 하면 이를 거를 수 있는 방법이 없'''기에, 요즘 여론조사는 믿을 게 못된다는 자조 섞인 목소리가 나오기도 한다. 이런 통계의 특성을 극도로 악용한 사례가 바로 '''타겟맵 같은 몇몇 쓰레기 사이트'''.
또한 통계 자체가 얼마나 신빙성 있느냐도 문제가 있다. 이를테면 적은 표본은 단순 퍼센트 비교 보다는 개별 표본을 분석해 인과관계 등을 찾는 게 오히려 신빙성이 높다. 애초에 이론 자체가 심리학을 고려하지 않기 때문에 한계가 있을 수 밖에 없다는 점도 있다. 그 예로 볼린저 밴드 역시 이론적은 신뢰성이 상당히 높으나 실제로는 그냥 평이한 수준이다. 이론을 현실에 적용하다보면 이론적으로는 95%, 99% 신뢰할 수 있어야 하는데, 실제로는 앞서 언급한 이유로 신뢰성이 0%가 되는 일도 허다하다. 애초에 '''모본 자체가 편향에 얽혀 있는 한 표본 역시 편향에 종속되므로, 통계에 오류가 발생하는 건 불가피'''한 문제이다.

2.2. 반대의 경우

'이것은 A이다.'라는 주장을 뒷받침하는 객관적인 통계가 없으니 '이것은 A가 아니다'라고 판단하는 오류를 저지르는 경우도 아주 많다.
논리학적으로 접근하면 참이라는 증거가 없을 뿐 거짓이라는 확신을 할 수 없는데 거짓이라고 단언해 버리는 점이 오류이다. '무지에 의거한 논증'에 해당한다.
특히 통계자료를 만들기 애매한 분야에서 이런 식의 주장을 펼치는 사람이 매우 흔하다. 앞서 성차별을 예로 들었으니 여기서도 성차별로 예시를 들자면, 예컨대 "가정이나 학교, 직장 등에서 각종 성차별이 만연하다"는 주장에 대해 "이에 대한 객관적 통계자료가 없으니 성차별은 존재하지 않는다"라고 반박하는 사례가 아주 흔하다.

3. 통계 소프트웨어

통계학#s-7 문서 참조.

4. 관련 문서

[출처] http://krdic.naver.com/detail.nhn?docid=39612600 [1] 보통 대한민국의 선거의 경우에는 세대 격차가 상당히 큰데다가, 무선전화에 비하여 유선전화의 경우는 젊은 층이 이용할 일이 적거나 없으므로 유선 100%로 했을 때 심한 오류가 일어난다. 7대 지선 당시에도 의도적이든 아니든 유선 100% 조사방식의 문제가 꽤 크게 대두되기도 했다. 그로 인해 할당표집(Quota Sampling)을 통하여 표본을 정하고 설령 약간 오차가 있다 하더라도 가중갑 배율을 곱하는 방식으로 여론조사를 시행하는 편이다. 현재는 갤럽과 리얼미터는 물론이고 전국 정례조사를 하는 여론조사 기관 모두가 이 방식을 택한다.[2] 사실 이 때도 유선 100% 여론조사로 인해 통계가 왜곡되는 경우가 상당히 많았다. 무선 80%~90% 정도의 조사방식을 취한 조사들에서만 적중률이 높았다.[3] 사실 이 안심번호 제도를 선도적으로 사용하던 것은 새누리당의 여의도연구원이었다. 그래서 자기들도 20대 총선 당시에 결과를 어느정도 예상하고 있었다고 한다. 이렇게 가장 선도적인 여론조사 통계 기술을 사용했음에도 불구하고 정작 7대 지선 이후로는 여론조사를 부정하는 전략을 취하다가 망했지만.(...)[4] 어떤 통계는 대형마트 안에서 조사되기도 했는데, 대형마트 안에 있는 사람은 '''대형마트를 자주 이용하는 사람이겠는가? 아니면 자주 이용하지 않는 사람이겠는가?''' 실제로 대형마트 규제에 반대한다는 결과가 나왔다. 대표적인 심리적 편중 + 지역적 편중의 예.

분류

통계