그래프 왜곡
거짓말에는 세 가지 부류가 있다. 거짓말, 새빨간 거짓말, 그리고 '''통계'''
(There are three kinds of lies: lies, damned lies, and statistics.)
1. 개요
Misleading graph.
어떤 데이터를 시각적으로 보여줄 때 그래프가 많이 이용된다. 막대 그래프를 이용해서 크기 비교를 직관적으로 볼 수 있게 해 주거나, 선 그래프를 이용해서 그 추이를 쉽게 알 수 있게 해준다.
그런데, 일부 데이터의 경우는 특정 데이터 값의 편차가 너무나 극단적으로 차이나는 경우도 있다. 예를 들어 전세계의 국방비를 비교할때 미국이라던지, 국회의원의 재산을 비교할때 특이값이 끼어 있으면, 그 데이터를 그래프로 그리면 아주 모양새가 이쁘지 않게 된다. 이런 문제를 해결하기 위해서 '물결선'을 이용해서 데이터를 자르거나, X축 Y축의 시작/끝 값을 설정하거나, (특히 천체물리 등 극단적인 큰 수를 다룰 경우) 그래프를 로그 스케일로 설정한다.
[image]
편의상 이런 특이값은 보통 '''물결선'''을 이용해서 결과값을 축약해서 보여주면, 다른 값들의 비교가 유용하게 된다.
[image]
반대로 변화량이 너무 작아서 꺾은선 그래프로 그렸을때 변화가 눈에 잘 안보이는 경우에도 X축 Y축의 시작/끝 값을 조정하여 보기 좋게 만드는 경우도 있다.
[image]
충청북도의 시군 인구(2020년 3월 기준)를 일반 막대 그래프와 로그 막대 그래프로 그린 예제. 충청북도 인구 수 1위인 청주시의 인구가 2위인 충주시의 인구보다 4배 정도 많고 청주시를 제외한 나머지 10개 시군 인구를 다 합쳐도 청주시의 인구에 못 미치는 특성 때문에 왼쪽과 같이 그릴 경우 모양새가 이쁘지 않게 된다. 오른쪽은 이를 보정하기 위해 로그 스케일로 설정한 그래프.
문제는, 이를 악의적으로 왜곡하는 경우다. 물결선을 이용하여 작은 차이를 크게 확대하는 것이 가능하다. 더욱 더 극단적인 경우는 아예 작정하고 데이터를 조작하거나, 그래픽 툴을 이용해서 자기 마음대로 그래프를 그리는 경우도 있다.
2. 그래프 왜곡 예시
아래의 예시는 X축 또는 Y축의 최대/최소값을 조정하고 물결선을 사용하는 방법으로 그래프를 왜곡시킨 것이다. 의도야 뻔하지만, 정상적인 그래프 프로그램으로 이용해서도 위의 방법을 이용해 만들어 질 수 있는 상황이긴 하다.
예를 들어 A의 데이터 값이 100이고 B의 데이터 값이 101이라고 하자. 실제로는 B는 A보다 겨우 1%만큼 크지만, 그래프를 그릴 때 최솟값을 99.5로 설정하면 A는 0.5로 보이고 B는 A의 3배인 1.5로 보인다. 1%의 미세한 차이가 300배 뻥튀기되는 것이다. 다음은 그 예시들.
[image]
최댓값과 최솟값의 범위를 조절해서 미세한 차이를 크게 부풀린 예. 엔비디아의 GTX 980과 AMD의 R9 290X 벤치마크 비교. 그래프만 보면 2.5배 이상의 큰 차이가 나는 것처럼 보이지만, 실제 값은 85와 84며 '''딱 1프레임''', 겨우 1.2% 차이가 날 뿐이다.
[image]
위쪽이 왜곡된 그래프, 아래쪽이 정상 그래프. 경기도지사와 세종특별자치시장은 2% 포인트 차이도 나지 않는 박빙이지만, 서울특별시장의 13% 포인트 격차보다 훨씬 더 큰 차이를 보이는 것처럼 그래프가 그려져 있다. KBS는 왜곡 논란이 발생하자 아래쪽의 그래프로 변경했다. 관련기사
[image]
26.7% 와 26.4% 로 그 차이는 겨우 0.4%p 밖에 차이가 안나지만, 그래프 높이는 1/3 밖에 안되게 그려서 큰 차이가 난 것처럼 보이게 했다.
아래의 꺾은선 그래프에서도 99.8 에서 98.6 으로 1.2 만큼 줄어들었지만, 거의 반토막 난 것처럼 만들어졌다. [1]
[image]
위의 그림은《The Economist》 1998년 5월 16일자 79페이지에 올라온 것이다. 매해 근로자와 사장이 받는 시간당 임금의 증가를 보여주고 있는데, 서로 다른 세 가지 방식으로 나타나 있다. 왼쪽은 있는 그대로를 보여준 것이고, 중간은 증가량에 로그를 취한 것이며, 오른쪽은 근로자와 사장의 최초 임금을 100으로 정해놓고 이후의 증가율을 보여주고 있다.
끝에서는 "근로자들의 임금 증가가 급격하게 이루어져 왔다"고 해석될 여지가 있으며, 오른쪽에서는 더 나아가 "근로자들의 임금 증가가 사장의 임금 증가를 아득하게 초월하고 있다" 는 식으로 해석될 여지가 있는 것이다. 그래프가 무엇을 뜻하고자 하는지 잘 확인하여야 한다.
[image]
3D그래픽을 이용한 원근감을 이용한 왜곡도 있다. 이 경우 데이터값이 표기되어 있지 않으면 B가 A보다 비슷하거나 미세하게 넓게 보일 수도 있다.
3. 그래프 표기 오류 예시
그래프 표기 오류의 경우는 그래프를 그래프 생성 프로그램으로 만들 때 실제 수치와는 다른 그래프를 사용하였거나 혹은 포토샵 등을 이용하여 그래프를 정확하지 않게 그려서 발생한다. 다만 아래의 예제처럼 '단순한 실수'에 해당되는 경우가 있다.
[image]
결국 한겨레는 이 오류를 인지하고, 수정된 기사로 변경하였지만 별도의 오보 공지는 없었다. 순서를 비교해 보면 시계방향으로 하나씩 밀려 있는 것을 알 수 있다.
[image]
마지막 그래프는 정상이며, 위의 2개는 마지막 그래프에서 숫자만 바뀌어 있다.
4. 그래프 조작
하단의 조작 예제들은 일반적인 그래프 생성 S/W 로는 나올 수 없는 것들이며, 그래프를 생성할 때 수치를 실제 수치와 다르게 제작하거나 그래픽 툴로 편집한 경우이다.[2]
4.1. 2012년 채널A
[image]
여러분은 0.9%P의 간격보다 0.3%P의 간격이 훨씬 더 크게 되는 마술(?)을 보고 계십니다.
4.2. 2009년 국가별 공휴일 정보
[image]
같은 15인데 높이가 다르다. 단 이 경우 한국의 실제 쉬는날이 '25일'인데 표기가 잘못된 경우일듯.
4.3. 2008년 중앙일보
[image]
연도를 섞어서 그래프를 그리는 새로운 기법.
그래프만 보면 자살이 계속 증가하는 것 처럼 보이지만, 실제로는 2005년까지는 증가했다가 2006, 2007년에는 감소했다.
가장 이른 연도에만 '년'자가 붙어 있고, 그래프 사이의 간격이 들쭉날쭉한 것으로 보아 초기에는 정상적으로 만들어진 자료를 중간에 누군가 수정한 것으로 추측할 수 있다.관련기사
4.4. 2017년 JTBC
[image]
2위인 안희정 후보가 실제 수치에 비해서 훨씬 크게 그려져 있다. 저런 그래프는 그래프 생성 프로그램으로는 나올 수 없고, 포샵으로 슥슥 그린 것이다. 관련 게시물
4.5. 2017년 SBS
[image]
문재인 후보의 지지율은 35.2%인데, 안철수 후보의 17.4%로 문 후보의 절반도 안된다. 그런데, 그래프상으로는 안철수의 그래프는 절반보다 훨씬 더 높게 그려져 있다. 다만 그래프를 보면 2%에 불과한 유승민 후보의 지지율도 유승민의 얼굴 크기에 맞게 그래프가 크게 그려진 것을 볼 수 있다. 모든 후보의 얼굴을 넣기 위해 고의적으로 모든 그래프를 조절한 것으로 생각할 수 있다.
4.6. 2017년 국민일보
[image]
국민일보에서도 문재인 대통령의 지지율 하락를 다루는 기사에서도 그래프를 왜곡했다. 리얼미터 기준으로 7월에서 8월은 76.6 → 72.5로 4.1 이 감소했고, 8월에서 9월은 72.5 → 69로 3.5가 감소했다. 계속 감소하긴 했지만, 감소량은 둔화되는데 그래프는 훨씬 더 급격히 감소하는 것처럼 그렸다. 관련 기사
4.7. 2019년 MBN
[image]
2019년 3월 25일 방영된 MBN의 시사교양 프로그램 판도라에 나온 공수처 설립에 대한 여론조사 결과. 82.9%의 찬성이 원 그래프에서 과반을 미처 넘지 못하는 것처럼 그려져 있는 반면, 반대 12.6%는 원 그래프의 1/3 정도를 차지하여 지나치게 크게 그려져 있다.
4.8. 2018년 청와대
[image]
문재인 정부 청와대가 2018년 8월 공식 홈페이지와 페이스북을 통해 연재한 카드뉴스 "한국 경제의 다양한 얼굴"의 일부로, 빨간색으로 표시된 부분은 KBS에서 자체적으로 표시한 지적사항이다. 이후 청와대에서는 실수라고 해명하며 그래프를 수정했다. 이것 말고도 왜곡된 그래프는 몇 가지 더 있는데 자세한 내용은 여기를 참고. #1 #2
4.9. 2019년 문재인 정부
[image]
2019년 2월 문재인 정부에서 발간한 대국민 홍보책자에 실린 그래프의 일부. 똑같이 5만원 오른 기초연금을 거의 2배가량 오른 것처럼 그려놨고, 전년도보다도 적은 국공립 유치원 증가량을 그래프에서는 거의 2배가량 뻥튀기시켰다. #
4.10. 2020년 뉴스1, 동아일보
[image]
뉴스1 기사에서 마치 마지막에 폭락한 듯한 그래프를 올렸는데, 사실은 '''시간이 오른쪽에서 왼쪽 방향'''이다. 실시간으로 항의를 받은 끝에 현재 기사는 정상 그래프로 변경되었다. 예전기사 캡쳐, 현재기사, 변경안된 다른 기사
참고로 09년의 특이점을 지우면 최고점에서 계속 하락하는 듯한 그래프를 만들 수 있는데, 당연히 그런 그래프를 사용한 언론도 있다. 관련기사
4.11. 2020년 청와대
[image]
문재인 정부 청와대 웹사이트에서는 코로나19의 일일확진자수가 감소추세라는것을 강조하기 위해 날짜축의 간격을 왜곡하여 홈페이지에 게시 중이다 관련기사. 매일 업데이트하려니 12일치만 홈페이지에 게시할 수 있는데 최근 12일치의 데이터만 표시하게 되면 오히려 우상향으로 나오게 되어 저런 왜곡을 저질렀다.
4.12. 2020년 TV 조선
[image]
이낙연 vs 황교안의 가상대결 결과인데 실제 수치는 53.2% vs 26.0% 이고, 이는 무응답 또는 기타 응답이 20.8% 가 있다는 의미이다. 그런데, 그래프는 이낙연 53.2% vs 황교안 나머지 모두 (대략 46.8%) 인것 처럼 그려져 있다. 정상적으로 그래프를 그리면 아래처럼 되어야 한다.[3]
관련기사
4.13. 2020년 연합뉴스TV
[image]
연합뉴스TV의 2020년 4월 5주차 정당지지도 그래프. 미래통합당 막대를 높게 그리고 무당층 막대를 낮게 그려서 같은 수치인데도 높이가 3배이상 차이가 난다. 실제로는 더불어민주당의 지지도가 압도적이고 무당층도 높은 편이지만 그래프는 마치 거대 양당 구도인 것처럼 착각하게끔 그려져 있다. 그외 다른 막대들도 비율이 정확하지 않다.
4.14. 2020년 YTN
[image]
YTN의 2020년 9월 2주차 정당지지도 그래프. 미래통합당 막대를 낮게 그려서 더불어민주당와의 지지도 차이가 매우 큰 것처럼 보이지만 계산해보면 0.9%p 차이로 오차범위를 고려하여 사실상 동률이라고 볼 수 있다. 미래통합당의 막대를 너무 낮게 그린 나머지 그래프 왼쪽의 축의 값과 비교해 보았을 때 32.8이 30보다도 현저히 작은 불상사가 발생하였다.
5. 기타
러시아에서는 퍼센트의 합계가 '''146.47%''' 가 되기도 한다. 2011년 러시아 총선 사태 문서 참조.
2018년에는 120% 로 떨어졌다고 한다.
6. 그래프 왜곡을 다룬 게시물
- http://deulpul.net/1826692 - 로그 스케일로 그리면 태평성대라 카더라.
- http://www.valken.net/244 - 연도를 자세히 보시라.
- http://deulpul.net/3364133 - Y축을 늘리거나 줄여 보자.
- http://www.slideshare.net/iamsdy/misleading-graphs-15848652 - 다양한 조작법에 대해서 설명하고 있다.
- 딴지 원본, 오유 펌글 - JTBC의 그래프 조작은 한두번이 아니다.
- http://www.newbc.kr/news/articleView.html?idxno=498 - 국민일보의 그래프 조작을 지적한 newbc의 기사.
- http://www.pennmike.com/news/articleView.html?idxno=8755(펜앤드마이크) - 靑, 경제통계 '그래프 조작' 파문
- https://dbr.donga.com/article/view/1203/article_no/7484 - 그래프 왜곡에 대한 동아비즈니스리뷰 기사
7. 관련 문서
[1] 하지만, 변화에 지극히 민감한 경우도 차고 넘치므로, 저런 형태의 왜곡이 무조건 나쁜 것은 아니다. [2] 4.5. 와 같이 어쩔 수 없이 조작한 것도 있다.[3] 사실 이 그래프는 누가 우세한지에 초점을 두었다고 할 수도 있긴 하다 '''물론, 다른 그래프는 수치와 일치한데 이 그래프만 수치와 다르다면 그건 잘못된 것이다.'''