조건부확률

 



1. 개요
2. 예시
3. 조건부확률의 함정
4. 베이즈 정리의 유도


1. 개요


conditional probability ・
'''조건부 확률'''은 사건 B가 일어나는 경우에 사건 A가 일어날 확률을 말한다. 사건 B가 일어나는 경우에 사건 A가 일어날 확률은 $$P(A \vert B)$$로 표기한다. 사건 B가 발생했을 때 사건 A가 발생할 확률은 사건 B의 영향을 받아 변하게 된다.

2. 예시


아래는 독학학위제 심리통계 문제 예시이다.
전체 중고차 중 70%가 에어컨이 있고 40%가 CD 플레이어가 있다고 하자. 전체 중고차 중 90%가 둘 중 적어도 하나는 가지고 있다고 할 때, 에어컨이 없는 중고차 중 CD 플레이어도 없을 확률은?
$$P(B)$$ = 에어컨이 없을 확률 = 0.3
$$P(A)$$ = CD 플레이어가 없을 확률 = 0.6
$$P(A\cap B)$$ = 에어컨과 CD 플레이어가 모두 없을 확률 = 0.1
$$P(A|B)$$ = $$P(A\cap B)$$/$$P(B)$$ = 0.1/0.3 = 1/3

3. 조건부확률의 함정


조건부확률은 그 특성상 의미를 오해하기 쉽기 때문에[1] 통계로 드러나는 수치는 사실인데 독자가 잘못 받아들여서 의도치 않게 통계의 함정에 걸리기도 한다. 유명한 예시 중의 하나가 몬티 홀 문제.
발터 크래머의 책 <확률게임>에서는 다음과 같은 예시를 들고 있다.

자동차 사고로 사망한 사람의 40%는 안전띠를 매지 않았다고 한다. 그런데 뒤집어서 말하면 자동차 사고로 사망한 사람의 60%는 안전띠를 매고도 죽었다는 뜻인데, 그렇다면 안전띠가 더 위험한 것 아닌가?

이 예시에서 말하는 조건부확률의 함정은 해당 통계가 '''자동차 사고로 사망한 사람 중에서''' 안전띠를 맨 사람의 비율이 60%라는 것을 말하고 있는 것을 '''안전띠를 맸을 때''' 자동차 사고로 사망할 확률이 더 높다는 식으로 오해하는 것이다. 두 조건부확률 P(A|B)와 P(B|A)가 서로 다르기 때문에 이런 오류가 발생하는 것.
이제 이 오류를 반박해 보자. 이 오류를 반박하기 위해서는 '전체 운전자 중에서 안전띠를 맨 사람의 비율'이 필요하다. 예컨대 전체 운전자 중에서 95%가 안전띠를 매고 나머지 5%는 안전띠를 매지 않았다고 하자. 또한 전체 운전자 1만 명 중 1명 꼴로 자동차 사고로 사망한다고 가정하자. 운전자가 안전띠를 매는 사건을 A라 하고 운전자가 자동차 사고로 사망하는 사건을 B라고 하면, 위 인용문은 $$P(A|B)=0.6$$임을 말하고 있는 것이다. 또한 가정으로부터 $$P(A)=0.95$$, $$P(B)=0.0001$$이다.
그렇다면 안전띠를 맸을 때 자동차 사고로 사망할 확률은 다음과 같이 계산된다.
$$P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{P(A|B)P(B)}{P(A)}=\frac{0.6\times 0.0001}{0.95}=0.000063$$(약 16,000명당 1명꼴)
안전띠를 매지 않았을 때 자동차 사고로 사망할 확률은 다음과 같이 계산된다.
$$P(B|A^C)=\frac{P(A^C\cap B)}{P(A^C)}=\frac{P(A^C|B)P(B)}{P(A^C)}=\frac{0.4\times 0.0001}{0.05}=0.0008$$(1,250명당 1명꼴)
즉, 예상했듯이 안전띠를 매지 않은 경우에 자동차 사고로 사망할 확률이 안전띠를 맸을 때보다 10배 이상 큰 것을 알 수 있다.
교과서나 참고서에도 나오는 '어떤 질병을 진단하는 기술의 정확도가 99%인데 실제 병을 앓고 있는 사람은 10만 명에 한 명꼴이라고 한다면, 이 기술로 병을 진단받은 사람 중 실제 병을 앓고 있는 사람의 비율은 몇 %인가?' 같은 문제도 조건부확률의 함정을 잘 보여 준다. 단순히 보면 해당 기술의 정확도가 99%이니 진단을 받은 사람의 99%도 실제로 병을 앓고 있으리라고 생각할 수 있지만 실제로는 진단받은 사람의 극소수만이 진짜로 병을 앓고 있다는 결과가 나온다. 정확도가 99%로 높기는 하지만 병에 걸리지 않은 집단의 크기가 넘사벽급으로 크기에 그 집단에서 1%만이 오진을 받았어도 오진을 받은 사람의 수는 실제 병을 앓고 있는 사람 수의 1000배나 되기 때문.
이와 비슷한 것으로 '검사의 오류(Prosecutor's fallacy)'가 있다. 그것의 단적인 사례가 다름아닌 O. J. 심슨 사건이다. 당시 검사는 "가정폭력을 당한 '''전체 여성''' 중 1/2500만이 남편에 의해 죽었다"고 주장했으나, 실제로는 "'''살해당한 여성 중''' 가정폭력의 전력이 있는 남편에 의해 살해되었을 확률은 약 90%이다"였다. 여기서 검사의 오류가 드러나는데, 피해자인 심슨의 아내는 '''가정폭력 뿐만 아니라 심슨에 의해 가정폭력을 당한 상황에서 다른 누군가에 의해 살해되었을 확률'''을 고려해야한다. 즉 '''절대다수의 가정폭력 사례는 살인까지 발생하지 않지만, 그 살인사건이 가정폭력의 전력이 있다는 전제 하에 그 범인은 그의 남편이나 아내이다.''' 즉, 주객전도가 된 것.

4. 베이즈 정리의 유도


베이즈 정리조건부 확률의 정의로 부터 유도할 수 있다.
자세한 내용은 베이즈 정리의 유도에 대한 문단 참조.

[1] 특히 후술할 예시와 같이 P(A|B)와 P(B|A)가 같다고 착각하는 경우가 많다.