죄수의 딜레마

 

1. 소개
2. 내용
3. 해결 방법
4. 쓰임새
5. 매체에서
6. 관련 문서


1. 소개


대한민국에서는 영어를 그대로 직역했기에 죄수딜레마란 표현을 많이 쓰고 있다. 그외에 수인(囚人)의 딜레마, 용의자의 딜레마, 용의자의 고민[1]이라고도 한다. 두 명의 참여자가 2개의 선택권을 가지고 있는 대표적인 2×2 게임.[2]
게임 이론의 대표적인 예시 중 하나다. 이 외에도 세 명의 총잡이가 게임 이론의 유명한 예시 중 하나. 하지만 《이기적 유전자》라는 희대의 베스트셀러를 만난 죄수의 딜레마 쪽이 더 유명하다. 세계적으로, 그리고 다양한 학문들 사이에 엄청난 영향력을 미친 유명한 예로서, 그만큼 많은 학제에 직간접적으로 도움을 주었다. 미시경제학에서 시작됐지만 비단 경제학뿐 아니라 정치학, 경영학, 행정학(정책학), 생물학, 생태학, 심리학 등 문과와 이과 어느 쪽에서나 설명력을 갖는다. 그 외에도 상대 정당에 대한 정확한 정보가 없는 상태에서 의사결정을 내려야 한다는 점에서 정치학, 특히 국제관계상의 문제를 다루는 국제정치학에서도 등장한다. 냉전 당시 군비경쟁을 이 모형으로 설명하는 것이 대표적인 예다.
특히 집단행동문제(Collective Action Problem)의 대표적 예로, 개인의 (이성적) 최선행동(Personal best choice)의 합이 사회적 최선(Social best choice)과 불일치한다는 점에서 사회적 최선을 위한 개인의 양보를 이끌어내기 위해 사회는 어떻게 개인을 유도해야하는가에 관해 많은 점을 시사한다.

2. 내용


공범으로 의심되는 두 명의 용의자를 따로따로 수사실로 불러 자백을 할 수 있는 기회를 준다. '둘 다 자백하지 않으면 1년 징역, 둘 다 서로의 죄를 자백하면 3년 징역, 둘 중 한 명이 자백하고 다른 한 명은 자백하지 않았다면, 자백한 쪽은 석방, 자백하지 않은 쪽은 10년 징역에 처하게 된다'는 상황에서 용의자는 자백을 하는 것이 이득인지, 아니면 자백하지 않는 것이 이득인지 따진다. 이 내용을 한눈에 보기 좋게 정리하면,

'''상대의 자백'''
'''상대의 침묵'''
'''자신의 자백'''
자신, 상대 모두 3년
자신 석방, 상대 10년
'''자신의 침묵'''
자신 10년, 상대 석방
자신, 상대 모두 1년
두 사람이 각자의 이익을 위해서 이성적으로 행동한다고 가정하면, 상대방이 취하는 행동과 무관하게 자신이 자백하는 것이 이득이므로[3] 둘 다 자백을 택하게 된다. 그 결과 둘 다 사이좋게(?) 3년의 징역을 살게 된다. '''각자가 최선의 이익을 보려는 행동으로 인해서 모두가 오히려 큰 손해를 본다.''' 반대로 두 사람 모두 '''공공의 이익'''(두 사람의 형량 총합)을 위해 개인의 이익을 포기한다면 결과적으로는 두 사람 모두 적지 않은 이익을 볼 수 있다.
이는 상당한 논란을 불러 일으켰다. 용의자의 딜레마란 게임 자체는 장 자크 루소가 등위 게임이라는 이름으로 등장한 매우 오래된 예시였지만 1950년대 캘리포니아에서 메릴 플레드와 멜빈 드레셔에 의해 정립되었으며 그 후폭풍은 가히 충격적이었다. 이 이론으로 인해 애덤 스미스자유방임주의, 즉 '모두가 자신의 이익을 위해 노력하게 하면 자연스럽게 사회는 발전하게 된다'라는 이야기는 절대적 진리의 자리에서 한 발자국 물러나게 되었다.
경제학이 아닌 경로로 딜레마를 접하면서 가장 많이 하는 실수 중 하나가 '''보복'''에 대한 부분이다. 경제학 서적을 살펴보면 알겠지만 이 딜레마는 비협조 게임의 전제에서 진행되는 내용이다. '''선택에 대하여 상대방은 어떠한 강제력(보복)도 행사할 수 없다'''는 '''전제조건'''에 있는 게임이다. 동일한 게임을 여러 번 반복할 경우 앞선 선택에 대해 보복이 가능하여 결과가 달라지는 건 물론이거니와[4], 특히 두 사람이 단순한 공범 관계가 아니라 범죄 조직원이거나 할 경우, 상대 이외의 조직의 제3자, 특히 '''조직의 보스가 자신을 배신자로 간주해 암살할 수 있다'''는 사실이 영향을 미치게 된다.

3. 해결 방법


[5]
처음 이 딜레마가 제시되었을 때 사람들의 반응은 "만약 두 사람이 저 조건을 바탕으로 협상을 해서 합심하면 간단하게 해결될 문제 아닌가?"라고 생각하기도 했는데, 얼마 안 가서 이러한 주장은 쉽게 반박되었다. 두 사람이 둘 다 자백하지 않기로 합심하고 나면, 두 사람은 상대방이 자백하지 않는다는 것을 확정지어 놓고 행동하기 때문에 오히려 더 적극적으로 자백을 하면서 결국은 '''두 사람 모두 서로를 배신하고야 만다.'''
이 딜레마를 해결하기 위해 '정보의 격리'를[6] 푼 뒤 당사자간에 담합[7]을 한다거나 연속된 죄수 게임에서 상대의 대응을 그대로 따라해 상대가 최선의 공동으로 유리한 선택을 하게 하는 논리, 상대가 자신만 유리한 결정을 한 것에 즉시 대가를 치르게 하는 논리 등이 나와있다.[8]
예를 들어 서로 의사소통이 되는 상태에서 이러한 '게임'을 단기성으로 한 번 하고 끝나는 게임이 아니라 반복적으로 하게 되면 다음 게임 결과에 영향을 주기 때문에 서로 이익을 보는 방향인 '둘 다 거부'로 나아갈 수 있다.[9][10]
반복되는 횟수가 유한하게 정해진 경우에 '자백'이 선택되는 것은 무엇 때문일까? 예를 들어, 100번 반복되고, 형기의 합계를 최소화하는 것이 이익이 되는 '게임'이라고 하자. 우선 마지막 100번째에서 둘 중 한 사람이 '자백'을 선택하면 자신은 석방, 상대는 10년의 형기를 받는다. 그렇기 때문에 마지막 100번째의 선택은 '자백'이 최선의 전략이다. 그렇다면 99번째는 어떨까? 어차피 100번째에는 상대방이 배신할 것이므로 99번째의 선택지에서 상대방에 대한 의리를 지켜서 '거부'를 선택할 필요가 없어진다. 따라서 99번째의 선택지 '자백'이 최선의 전략이 된다. 이런 과정으로 결국 모든 선택지가 '자백'이 되는 것이다.
이 딜레마는 인간이 이성적으로 사고할 때 안습적인 결과가 나오지만, 이 게임을 무한 반복하면 신기하게도 동지애가 생길 수도 있다. 예를 들어 1차세계대전 당시 전선이 정체되는 경우가 많았는데, 식사시간이나 크리스마스는 전투를 중단한다든가 같이 모여서 파티를 벌이는 등의 경우를 들 수 있다.
이에 대해서 전문적으로 알기 위해서는 경제학의 미시경제학, 더 구체적으로는 '게임 이론'을 학습할 수 있다. 단지 상식적인 이해를 원한다면 좋은 책으로 '''협력의 진화'''가 있다. 이 책은 로버드 액설로드(Robert Axelrod)가 계속해서 반복되는(정확히는 언제 끝날지 알 수 없는) 죄수의 딜레마 상황에서 최적의 전략[11]은 무엇인지를 찾아내는 두 번의 대회의 결과를 정리한 것이다. 놀랍게도 이 대회에서 온갖 꼼수와 치사함(...)이 난무하는 전략들 중 1위를 차지한 것은 무척 단순한 '팃포탯(Tit-for-tat) 전략'이었다. 얼마나 간단하냐 하면, '''처음에는 상대방과 협력한 뒤, 다음 번에는 상대방이 지난 번에 내게 했던 것과 똑같이 따라한다.''' 가 전부. 즉, 처음에 협력한 뒤에 상대방이 배반했다면 다음번에는 나도 배반하고, 상대방이 협력했다면 나도 다음번에 협력하는 식이다. 더 놀라운 것은, 첫 대회에서 팃포탯이 승리하자 액설로드가 팃포탯의 승리와 그 이유를 분석한 자료를 다음 대회 참가자에게 배포했을 정도로 팃포탯의 전략이 다 드러났지만, '''두 번째 대회에서도 팃포탯이 승리했다.'''
팃포탯의 특징을 인간적인 개념에 대입해 보면, 신사적이고(처음에는 무조건 협력하니까), 명료하고(전략이 단순하여 상대가 알 수 있으니까), 분개할 줄 알고(보복한다), 관용적이라는 것(상대가 배신한 뒤 다음번에 협력을 요청하면 이전의 배신을 잊고 다시 협력해주니까) 정도가 된다. 다만 팃포탯이라고 약점이 전혀 없는 완벽한 전략은 아니며 죄수의 딜레마가 '''선택에 대하여 상대방은 어떠한 강제력(보복)도 행사할 수 없다'''는 '''전제조건''' 하에 벌어지는 일이라 상대방의 보복이나 제3요소의 개입이 얼마든지 일어날 수 있는 현실에서도 마냥 팃포탯 전략을 구사하긴 어렵다. 자세한 내용은 팃포탯 문서 참고.
'''협력의 진화''' 개정판 서문을 보면 리처드 도킨스가 이 게임의 결과에 광희한 것을 알 수 있다.[12] 이후 도킨스는 이기적 유전자의 개정판에서 한 장을 추가한 뒤 이 죄수의 딜레마와 팃포텟 전략을 통해 개체의 '마음씨 좋은' 행동이 어떻게 성공적일 수 있는지 설명한다.

4. 쓰임새


국가 간에 환경 문제의 해결에 있어서 이 딜레마가 잘 드러난다. 개별 국가들은 서로간에 협정이 이루어지지 않는 한 이러한 문제들을 해결하는 것에 충분한 노력을 기울이지 않고, 이로 인해 지구 전체적으로는 피해를 입게 된다. 간단히 중국에서 불어오는 미세먼지를 생각해보자. 중국 입장에서는 이를 해결하기 위해서 많은 비용이 들지만, 이러한 노력에 대한 댓가는 한국도 누리게 되고, 따라서 환경을 개선할 충분한 유인이 주어지지 않는다고 볼 수 있다. (물론 현실적으로는 중국 자신에게도 피해가 크기 때문에 완전한 죄수의 딜레마로 보기는 어렵다.)[13]
냉전시대의 미국과 소련의 핵 군비 경쟁을 설명할 때 죄수의 딜레마가 주로 사용된다. 상대방이 핵을 비축할지 안할지 정보가 불확실한 상황에서 미국과 소련 각자의 입장에서는 자신이 핵을 보유하는 것이 최선의 선택이 되기 때문이다.
'''미국 입장'''
'''소련 핵 비축 O'''
'''소련 핵 비축 X'''
'''미국 핵 비축 O'''
핵군비 균형(2,2)
미국이 핵 군비 압도(10,0)
'''미국 핵 비축 X'''
소련이 핵 군비 압도(0,10)
핵 없는 평화(6,6)
소련이 핵을 비축하는지 안하는지 모르는 상황에서 미국으로서는 핵을 비축하지 않는 것보다는 핵을 비축하는 것이 더 합리적인 선택이다. 만약 미국이 핵을 비축하지 않고 소련도 핵을 비축하지 않는다면 핵 없는 평화가 오면서 인류 전체적으로는 좋을지는 몰라도, 소련이 핵을 비축하는 날에는 미국으로서는 최악의 상황으로 치닫을 수 있다. 하지만 미국이 핵을 비축한다면 못해도 소련과 핵 군비는 균형을 이룰 수 있고, 소련이 핵을 비축하지 않는다면 핵 군비를 압도함으로써 최선의 상황으로 이끌 수 있기 때문이다. '''주목할 만한 점은, 여기서도 개개인(이 케이스에서는 각 국가)의 이익을 보려는 합리적인 행동이 전체적으로는 손해를 보는 결과를 초래한다는 것.''' 전체를 두고 봤을 때 가장 합리적이고 손해가 적은 선택지는 양측 다 핵무기를 보유하지 않는 것이다.[14] 이런 죄수의 딜레마로 인한 핵 군비 경쟁의 손해를 미국과 소련 모두 인지하고 있었기에, 서로간의 핵 군비 경쟁을 억제하기 위해 각자의 나라를 연결하는 핫 라인 개설, 핵확산금지조약 체결 등 많은 노력을 기울였다.[15]
뱅크런 사태에서도 개별적인 사람들에게 주어지는 유인으로 인하여 사회 전체적으로 나쁜 결과를 초래한다는 점이 드러나지만, 이 경우는 죄수의 딜레마와는 엄연히 다르다. 조금 까다로울 수 있지만 잘 생각해보자. 개별적인 투자자 입장에서는 다른 투자자들의 행동을 예측하고 따라할 유인이 주어진다. 즉, 다른 투자자들의 행동에 따라서 내 입장에서의 최적의 행동이 달라지게 되는 것이다. 이러한 게임은 조정 게임(coordination game)이라고 불린다.
응용된 게임으로 '선택적 죄수의 딜레마'도 있는데 기존 죄수의 딜레마에 기권을 추가시킨 것이다. 이 모델은 선거 등의 현실에 적용하기 위해 쓰인다.
'''각각의 입장'''
'''협력'''
'''배신'''
'''기권'''
협력
상호 협력(5,5)
배신한 쪽의 압도적 이득(-5. 10)
기권에 의한 상호 무보상(0,0)
배신
배신한 쪽의 압도적 이득(10, -5)
상호 배신(-3,-3)
기권에 의한 상호 무보상(0,0)
기권
기권에 의한 상호 무보상(0,0)
기권에 의한 상호 무보상(0,0)
기권에 의한 상호 무보상(0,0)

5. 매체에서


이기적 유전자》에 잘 설명되어 있고, 영화 《LA 컨피덴셜》에도 등장한다.
<왓슨, 내가 이겼네!>라는 수학서적에서는 두 절도용의자에게 이 방법을 쓴 이야기가 나오는데, 둘 모두 자백하지 않았다. 이유는 '''자백하면 10년 뒤에 파트너가 머리를 날려버릴 것이 분명하므로.'''[16] 상술한 '''보복'''의 함정이 반영된 결과다.
드라마 《》에서도 이걸 이용해서 범인들의 자백을 받아내기 위해 두 명을 다른 방에서 심문했지만 유리창으로 몰래 입모양으로 신호를 보내는 바람에 실패하는 장면이 나온 적이 있다.
영화 《다크 나이트》 후반부에서도 죄수의 딜레마와 비슷한 상황을 연출했다. 일반인이 탄 배와 죄수들이 탄 배 2척에 각각 다른 한쪽의 배를 폭파시킬 수 있는 폭탄 스위치를 주고, 12시가 되기 전에 다른 쪽 배를 폭파하는 배만 살려주겠으며[17] 12시가 돼도 아무도 스위치를 누르지 않으면 두 척 다 폭파하겠다고 조커가 협박한다. 다만 여기서는 각기 다른 이유로[18] 양쪽이 스위치를 누르지 않았고 배트맨이 조커를 제압하여 쌍방이 구제된다. 합리적인 판단을 내릴 수 있는 주체인 두 그룹이 비합리적인 선택을 함으로써 쌍방이 구제된다는 결과가 나온다. 여기서는 그룹의 단위가 매우 크다는 점이 변수를 미쳤다는 주장이 있다. 보통 죄수의 딜레마는 10명이 채 안되는 경우에 한해 이루어지며 죽음같은 극단적인 소재는 거의 쓰지 않지만, 본 경우에는 만의 하나라도 '합리적인' 결정을 내린다면 '''수만명이 죽을 것'''을 전제조건으로 실험이 진행되기 때문. 위의 핵 관련 죄수의 딜레마에서 최악의 상황으로 치닫는 상황이 잘 나오지 않은 이유와 비슷하다.
2007년~2009년에 영국 ITV에서 방영된 Golden Balls의 마지막 라운드가 정보 교류 가능한 죄수의 딜레마 형태다. 협력하면 두 사람이 상금을 절반씩 나눠가지고, 배신에 성공하면 승자독식, 둘 다 배신하면 아무도 상금을 가질 수 없는 것이다. 여기서는 대화가 가능하기 때문에 서로 상대에게 협력을 뽑아내기 위한 온갖 기상천외한 뻥카들이 날아다니며, 심지어 "나는 배신하겠다"고 미리 공언하고 상금을 날리지 않으면 상금 절반을 따로 나눠주겠다면서 상대의 협력을 요구하는 벼랑 끝 전술이 등장한 회차도 있다.
무한도전 도둑들 특집도 이 딜레마를 이용한 특집이다.
코드 - 비밀의 방에서의 게임 룰 중 하나인 만장일치 투표가 이와 동일하다.
황색언론과 기레기를 비판한 게임인 We Become What We Behold를 만든 Nicky Case가 만든 프로그램이 있다. https://osori.github.io/trust-ko/
이 게임 The Evolution of Trust가 이걸 소재로 한다.
노 게임 노 라이프의 7~8권 내용 전체가 '죄수의 딜레마'다.

6. 관련 문서



[1] 서울대학교이준구 경제학 교수는 엄밀히 말해 형량거래는 판결 이전에나 가능하며, '죄수'란 일반적으로 판결이 확정되어 징역형을 살고 있는 이를 지칭하므로 '죄수의 딜레마'는 올바르지 못한 표현이라고 주장한다.[2] 옛 고등학교 이산수학에 포함되었다가 다음 교육개정 때 없어졌다.[3] 상대방이 자백했을 경우 자신이 자백하면 3년형, 침묵하면 10년형이므로 자백이 더 이득이고, 상대방이 침묵했을 경우 자신이 자백하면 석방, 침묵하면 1년형이므로 이때도 자백이 더 이득이다. 상대가 어떤 행동을 취하든 간에 자신에게는 자백이 더 이득이라는 점이 핵심이다.[4] 무한히 반복되는 경우만 해당한다. 유한하게 반복되는 경우에는 상기 설명한 균형에서 벗어나지 않는다.[5] '''사실 이것이야말로 학자들이 말하는 이상적인 상황 1위다.'''[6] 두 용의자간에 어떠한 의사소통도 불가능하다는 게 가장 중요한 전제조건이었다. 그러나 이성적으로만 판단을 할 경우 '''결국 두 사람은 서로를 배신하게 된다'''는 결론이 나옴에 따라 정보의 격리 자체는 의미가 없는 조건이 되었다.[7] 서로 동등할 경우[8] 하지만 현실에서는 이미 언덕을 구르는 눈덩이처럼 힘과 자본이 불어날대로 불어나 혼자서만/몇몇 부류만 이득을 보고 차등대우를 해도 항거할 방법이 마땅치 않다.[9] 이론적으로는 '게임'을 무한정 반복하는 경우에 한해서 '둘 다 거부'라는 선택지가 선택된다. '게임'의 횟수가 정해진다면, 두 사람은 한 번 하고 끝날 때와 동일한 선택지인 '자백'을 선택하게 된다. 실제로는 충분한 숫자의 유한한 횟수 즉 당사자 입장에서 무한이나 다름없는 '유한한' 수의 게임이 벌어진다면 '둘 다 거부'하게 된다.[10] 유한한 경우 거부하는 이유는 다음과 같다. 맨 마지막인 n번째 게임에서는 차후 게임이 없으므로 거부를 선택하게 된다. 어차피 n번째 게임에서 거부를 선택하므로 n-1번째에서는 n번째 선택에 대한 고려 없이 마찬가지로 거부하는 것이 최적선택이 된다. 그리하여 결국 본래의 첫 번째 선택에서도 거부를 선택하는 것이 최적선택이 된다.[11] 최적의 전략이 되는 기준은 승리한 수가 아니라 가장 많은 총점을 획득한 것으로 뽑았다. 실제로 토너먼트에서 1위를 차지한 팃포탯(TFT)은 최선의 결과가 무승부이고, 상대 전략보다 고득점을 함으로써 승리하는 것은 불가능한 전략이다.[12] 도킨스 왈, '나는 책이 나오자마자 구입해 흥분에 휩싸여 읽었으며, 이 책의 전도사라도 된 듯 만나는 사람들마다 붙잡고 읽으라고 권하였다. 수년간 내가 가르친 옥스퍼드 대학교 학부생들은 한 사람도 빠짐없이 액설로드의 책을 읽고 에세이를 써내야 했다. 나는 지구 위 모든 사람이 이 책을 공부하고 이해한다면 이 행성이 더 살기 좋은 곳이 되리라고 굳게 믿는다. 세계의 지도자들을 모두 가두어 놓고 이 책을 준 다음 다 읽을 때까지 풀어주지 말아야 한다. 그것은 그들 개인에게 기쁨이 될 뿐 아니라 인류를 구원할 것이다(...).'[13] 사실 국제적인 환경 문제는 죄수의 딜레마보다는 공유지의 비극으로 더 잘 설명될 수 있다.[14] 그나마 핵무기의 평화로운 사용법으로 제시되는 시나리오가 거대한 운석이 지구를 향해 날아올 때 핵무기로 요격하는 것인데 애당초 거대한 운석이 지구를 향해 날아올 확률이 너무 낮다.[15] 오리지널(?) 죄수의 딜레마에 대입해보면 자백은 하되 사전에 어느정도 말을 맞춰놔서 범행의 일부만 자백하여 감형을 노리는 것에 비유할 수 있겠다.[16] 그래서 형평성을 위해 불지 않은 쪽에 10년형 대신 종신형...으로 바꿔놓기도 한다. 이러면 죄수쪽 정신적 압박이 더 심해지기도 하고...[17] 다만 조커가 배트맨에게 하비 덴트와 레이첼의 주소를 반대로 불러줬던 걸 감안하면, 이 폭탄 스위치는 '''자기 배를 폭파하는''' 스위치일 가능성도 배제할 수 없다![18] 일반인 측에서는 선내 투표를 통해 스위치를 누르자고 합의했음에도 불구하고 자신들이 투표가 끝난 지금까지 죽지 않았다는 것은 죄수들도 마찬가지로 스위치를 누를 의사가 없는게 아니냐는 지적이 나오고, 눌러야 한다고 나서서 자원한 사람도 차마 사람을 죽일 수 없어 기폭장치를 누르지 않았다. 한편 죄수 호송선 쪽에서는 두령으로 보이는 죄수가 간수에게서 당신이 10분 전에 했어야 할 일을 대신해주겠다며 스위치를 받아선 '''곧장 창밖으로 던져버렸고''' 다른 죄수들도 이에 승복한다. 맨 처음 은행 장면에서 은행장이 말했듯 죄수들조차도 최소한의 명예와 양심을 가졌다고 묘사하며 조커의 논리를 정면으로 반박한 장면.