큰 수의 법칙
1. 본문
law of large numbers(LLN)
대수(大數)의 법칙이라고도 한다. 단 '대수의 법칙(大数の法則)'이란 말은 일본에서 번역한 용어로 한국인에게는 직관적으로 와닿지 않는 측면도 있고, 대수학의 대수(代數)와도 헷갈리기에 점차 '큰 수의 법칙'이라는 표현을 사용하는 추세이다. 물론 나이 많은 사람들은 보통 '대수의 법칙'이라는 표현을 더 많이 쓰는 편.
어떤 시행에서 사건 A가 일어날 수학적 확률이 $$p$$이고 $$n$$번의 독립시행에서 사건 A가 r번 일어난다고 할때 임의의 $$\epsilon>0$$에 대하여 $$\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\left(\left| \frac{r}{n} -p \right| <\epsilon \right)=1 $$이다.
수학적으로 이 둘은 실제로 다른 법칙이고, 실제로 강법칙이 훨씬 증명하기 어렵다. 다만 그 정확한 차이를 설명하는 것은 대학원 수준의 확률론 지식이 필요하고, 일상생활에서의 의미는 거의 차이가 없다고 보아도 무방하다.서로 독립인 확률변수 $$X_1, X_2, \cdots , X_n, \cdots $$이 평균이 $$\mu$$인 동일한 확률분포를 따를 때,
(1) (약한 큰 수의 법칙)임의의 $$\epsilon>0$$에 대하여 $$\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\left(\left| \frac{1}{n}\sum_{k=1}^{n}X_k -\mu \right| <\epsilon \right)=1 $$이다.
(2) (강한 큰 수의 법칙) $$ \displaystyle \operatorname{P} \left( \lim_{n\rightarrow\infty} \frac{1}{n}\sum_{k=1}^{n}X_k = \mu \right) = 1 $$이다.
간단히 요약하자면, 시행 횟수가 늘어날 수록 측정한 실제 확률이 수학적으로 예측된 확률에 수렴한다는 법칙이다. 단순해 보이지만, 수학적 확률과 통계적 확률을 실제적으로 이어주는 굉장히 중요한 법칙이다.[1] 현대 과학에 있어 뉴턴의 운동법칙, 질량 보존의 법칙만큼이나 구속력, 공신력이 강한 법칙이다. 어쩌면 저 2개의 법칙과 함께 현대 자연과학의 근간 중 하나로 봐도 손색없을 정도로 중요한 법칙이지만, 특정인이 발견해낸 것이 아니기에 잘 알려지지 않은 법칙이다.
간단하게 생각해보자. 정상적인 주사위를 던질 경우 각각의 숫자가 나올 확률은 1/6이다. 따라서, 주사위를 6번을 던진다면 모든 숫자가 대충 1번씩은 나와야 한다. 그러나 실제로는 같은 숫자가 중복으로 나와서 1만 6번이 나올 수도 있다. 그렇다고 해서 이 주사위를 던졌을 때 1이 나올 확률은 100%, 나머지 숫자는 0% 라고 말 할 수는 없는 것이다. '''정상적인 주사위'''니까. 따라서 처음 6번 동안 1이 스트레이트로 나온건 운이 좋았다 치고, 이 주사위를 60번, 600번, 6만번을 던지면 처음엔 100%였던 1이 나올 확률이 다른 숫자들이 나오면서 점점 줄어들게 되고, 다른 숫자들도 처음엔 0%였지만 점점 걸려 나오는 숫자가 많아지면서 나올 확률이 점점 올라서 종국엔 모든 수에 대한 확률이 '''거의''' 16.67%(=1/6)이 될 것이다. 물론 실제로는 모두가 16.67%는 아니고 어떤 건 16.8%, 어떤 건 17%, 어떤 건 16.1% 등 들쭉날쭉 할 수 있고, 사람이 직접 던진다면 이정도면 만족할 만한 결과다. 여기서 컴퓨터나 시뮬레이터의 힘을 빌려 주사위를 6억번을 던진다면? 각각의 수에 대한 확률은 6번 던진 것에 비해 1/6에 가까울 것이다. 다시 6조번을 던진다면? 각 수에 대한 확률은 6억번을 던진 것에 비해 1/6에 더 가까워질 것이다. 결과적으로 시행의 횟수를 늘리면 늘릴수록 각 수에 대한 확률이 1/6로 수렴할 확률이 커져서 1에 가까워져 간다는 것이 큰 수의 법칙의 원리이다.
이 법칙이 현실에서 가장 잘 쓰이는 곳이 바로 도박. 대표적인 예로 카지노에서 하우스 측이 돈을 벌어들이는 것도 이 법칙을 적절히 활용한 것이다. 룰렛 게임을 예로 들자면, 룰렛에서 '검정 · 빨강', '홀수 · 짝수'에 돈을 걸어 성공한 경우 2배의 금액을 받는다. 수는 당연히 홀수 아니면 짝수이고 색도 검은색 아니면 빨간색밖에 없으므로 2배의 금액이면 기대값이 1일 것 같으나 실제로는 빨강색도 검정색도 아니고 홀수도 짝수도 아닌 것으로 취급되는 0과 00이 있어 1에 미치지 못한다. 간단히 말하자면 '''이길 확률이 50%일 것 같은데 실제로는 47% 정도의 승률'''이라는 것. 카지노 측은 바로 여기서 큰 수의 법칙을 활용하는 것이다. 개개인의 고객이 실제로 행한 시행에서는 편차가 발생해, 돈을 따는 사람과 잃는 사람이 생겨나지만 그 모든 고객을 상대하는 카지노 입장에서는 결과적으로 이득을 본다는 사실은 변하지 않는다. 즉 고객 입장에서의 환수율이 100%에서 아주 조금만 낮아도 수천 수만 명을 상대하는 카지노 측이 결과적으로 이득을 볼 수 밖에 없다. 물론 노골적으로 심하게 승률이 낮으면 아예 손님이 모이지 않으므로 승률은 미묘하게 높게 해놓고 많은 게임, 또는 도박에 거는 금액을 높여 결론적으로 벌어들이는 양을 늘린다.
도박에서 이와 연결되는 표현으로 일명 '초보자의 행운[2] '(beginner's luck)이 있다. 도박에 대해 익숙하지 않은 초보자가 초반에는 우연히 행운으로 고수보다 더 큰 이득을 얻을 수 있다는 것이다. 이는 아직 통계적 확률로 수렴하지 않은 상태라 가능한 것. 그러나 장기적으로 보면 결국 승률이 실력에 따라 수렴해서 결과적으로는 고수보다 이득이 낮게 된다.
수능이나 과거 삼성그룹 SSAT가 공정하다는 소리를 듣는 이유가 모집단이 그만큼 많아서며 예외는 모집단을 줄이는 효과가 있다. 출제과정의 유출 등은 별론이겠지만.
프로야구계의 명언 내려갈 팀은 내려간다는 이 큰 수의 법칙을 반영한 '''과학적인 발언'''이다. 초반에는 전력이 약한 팀도 높은 승률을 기록할 수 있지만 경기 수가 많아질수록 큰 수의 법칙에 따라 원래 실력대로 수렴하여 하위권으로 내려가게 된다. 던파확률의 법칙이나 천봉의 조작 논란 역시 '큰 수의 법칙'을 무시해서 생긴 근거 없는 속설일 뿐이며, 로또 명당 같은 복권 명당도 따지고 보면 '''사람 많이 몰리니까''' 계속 명당 자리를 지키고 있는 것일(=당첨될 "상대적" 확률은 다른 집과 똑같은데도 사람이 많이 몰리니까 당첨된 '''절대적''' 횟수가 많아졌을) 뿐이다. 버뮤다 삼각지대에서 사고가 많이 생긴다는 이야기도 결국에는 연근해와 적당히 떨어져 있어 사고가 발생했을 때 적절한 타이밍에 구조를 받는 것이 어렵다는 점과, 그곳을 통과하는 선박·항공기의 대수가 원체 많아서 생기는 큰 수의 법칙에 기인했다고 보는 것이 타당하다.
또한 큰 수의 법칙이 아무리 법칙이라는 확실한 것이라 해도 함부로 남용해서 적용하면 안된다. 그 큰 이유는 p 값 때문이다. 이를테면 주사위의 경우 수학적으로 어떤 한 면이 나올 수 있는 확실한 1/6 이라는 확률 p 값이 있고 가위바위보 싸움의 이기고 지고 비길수 있는 1/3 확률이 있으며 이 확률값이 재현되기까지 40번 시도횟수만으로도 90%가 넘는 실현확률이 나와 법칙증명에 큰 문제가 없지만 p 값이 틀렸다면? 지금 든 주사위나 가위바위보 같은 것이 아닌 더 복잡하고 변수가 많으며 표본이 부족한 무언가를 섣불리 획일화시켜서 p 값을 재현해 그것을 큰 수의 법칙에 적용시키면 큰 오류가 발생한다. 이게 왜 '''큰 수'''의 법칙인지 생각해보자. 고작 40번 50번으로 해결될 문제보단 해결이 안 될 문제가 훨씬 많다.
2. 작은 수의 법칙
때문에 책 '이공계의 뇌로 산다'에서 소개되길 노벨경제학상 수상자 대니얼 카너먼은 우스갯소리로 이러한 불충분한 표본으로 잘못 만들어진 p 값으로 인한 잘못된 큰 수의 법칙을 '작은 수의 법칙'이라고 얘기했다고 한다. 즉 실제 있는 법칙은 아니다. 또한 책에 소개된 잘못된 p값 예시로 V2의 런던폭격분포를 예로 들었다. 말인즉 이미 폭격이 된 결과물만 가지고 일정한 폭격분포를 표본으로 어느 지역에 어느 정도 폭격이 될 p확률값을 구할 수 있지만 V2 미사일은 그 p값확률은 커녕 어디로 날아갈지 도통 알기 힘든 매우 정밀도가 낮은 물건으로 이미 폭격된 지역표본의 p 값은 큰 의미가 없었다는 것. 쏘면 쏠 수록 p 값이 변할 수밖에 없는 물건이었다는 것이다.
3. 중심 극한 정리와의 차이
많은 사람들이 혼동하는 내용인데, 큰 수의 법칙은 이 반복시행의 결과가 정규 분포 형태를 띤다는 중심 극한 정리(Central Limit Theorem)와는 다른 내용이다. 큰 수의 법칙 어디에도 r/n과 p의 차이가 정규분포를 따른다는 내용은 없기 때문. 어찌 보면 이 중심극한정리는 큰 수의 법칙의 '강화판'이라고 생각할 수 있다.