Elo 레이팅

 


1. 개요
2. 점수 증감 방식
2.1. 수식
2.2. 수식의 뜻, 원리
3. 특징
4. 사용
4.1. 체스에서
4.2. 체스 이외에서


1. 개요


헝가리/미국의 물리학 교수이자 체스 플레이어인 아르파드 엘뢰(Árpád Élő) 박사가 체스 혹은 다른 분야에서 플레이어들의 실력을 표현하기 위해 만든 점수 측정 방식.
엘뢰 박사의 성을 따서 붙여진 고유명사다. 부를때는 영어식으로 Elo/엘로라고 한다. 이름에서 유래한 만큼 첫 글자만 대문자로 쓴다.

2. 점수 증감 방식



2.1. 수식


가중치를 임의로 정한 뒤, (가중치)×(1-점수 차이에 따른 예상 승률)로 매 게임마다 증감되는 점수를 결정하는 방식이다.

Pafter = Pbefore + K * (W - We)

https://www.fifa.com/fifa-world-ranking/procedure/men가 쓰는 공식.

Pafter = 경기 후의 점수
Pbefore = 경기 전의 점수
K = 가중치. 5부터 60까지의 수를 갖는다.
W = 경기 결과. 승리시 1, 무승부시 0.5, 패배시 0
We = 예측된 경기 결과. 1 / (10^(상대의 Pbefore – 나의 Pbefore)/600) + 1)
  • 예시
가중치 20, 예상 승률 50% -> 승리한 사람은 +10점, 패배한 사람은 -10점.
가중치 20, 예상 승률 75% -> 강자가 승리시 (강자 +5, 약자 -5). 약자가 승리시 (강자 -15, 약자 +5)

2.2. 수식의 뜻, 원리


한국어 pgr, 영어 stackexchange, 영어 wikipedia에서 수식의 뜻, 원리를 알 수 있다.
합리적인 가정하에서 수학을 이것저것 적용하며 만들어냈다.
가중치K, We 속의 <10, 600>, 평균 레이팅은 뜻을 부여하기 위해 설정된 임의의 숫자다. 가중치K는 경기 결과가 어느 정도로 점수를 바꾸는지를 의미한다. 정확도에 문제가 생길 수 있어서 임의로 하면 안 되지만 5나 60 같은 숫자는 수학적 근거 없이 지나치게 임의로 설정했다는 의심이 든다. glicko 등의 공식은 이 점을 해결했다. We 속의 <10, 600>는 "600점 차이가 나면 승률비가 1:10"라는 뜻이다. <루트10, 300>과 동일한 뜻이며 <10, 1200>처럼 임의로 설정을 해도 스케일링만 달라지지 문제는 없다. 스케일이 달라지니 가중치K도 바꿔줘야 되긴 한다. 평균 레이팅은 글자 그대로 평균 레이팅이다. fifa.com의 공식에선 분명하게 드러나지 않지만 만약 어떤 공식이 맨 처음 Pbefore을 1200으로 놓고 수백명이 수백판을 한 뒤 평균 레이팅을 계산하면 여전히 정확하게 1200이 나온다. 2900처럼 임의로 설정을 해도 역시나 축만 달라지지 문제는 없다.

3. 특징


'''신뢰성이 높다.''' 승률방식에 비해서 플레이어들간의 객관적인 실력차이를 쉽게 알 수 있고 수학적으로도 신뢰성이 높고 실제 데이터를 바탕으로 백테스트를 해도 신뢰성이 높다는 것이 밝혀졌다.
양민학살을 통한 점수 올리기가 힘들기 때문에 높은 상대에게 도전하는 것을 권장하는 도전적인 시스템이기도 하다.
Elo 레이팅의 단점은 시간이 지나면 평균적인 레이팅이 상승하는 인플레이션이 발생한다는 것이다. 이런 인플레이션 때문에 동시대 기사간 실력을 비교하는데는 유용해도 다른 시대 간 기사들의 실력(즉 역대 최강)을 가리는데는 부적합하다.[1] 이러한 인플레이션을 최대한 줄이기 위해 FIDE는 레이팅이 1000 이하로 떨어진 선수는 레이팅 목록에서 삭제한다.
최근들어 컴퓨터 체스가 보급되면서 마스터급 선수들의 기량을 엄청난 속도로 따라잡아 버리는 어린 선수들이 많이 배출되고 있다. 문제는 경력이 짧은 선수들의 초기 레이팅은 기본적으로 낮게 설정되어 있기 때문에 플레이어들이 자기보다 레이팅이 낮은 플레이어들의 도전을 회피하는, 일명 "레이팅 관리"에 들어간다. 특히 경력이 오래된 선수들이 이런 신예들을 알게 모르게 기피하는 현상이 나타난다. 이런 일을 줄이기 위해 FIDE는 기준 점수(k값)를 경우를 나눠 차등적으로 적용하는데, 총 매치가 30판 이하이거나 만 18세 미만[2]일 경우 k=40이며 2400미만 플레이어는 k=20, 2400이상 플레이어는 k=10이다. 예를들어 Elo가 2400이며 많은 경기를 치른 플레이어 A와, A를 쉽게 이길정도로 잘 두지만 막 가입한 신인 B가 경기를 하여 B가 이겼다고 가정하자. 이때 B의 k값은 40이고 A의 k값은 10이므로 B가 얻은 Elo는 A가 잃은 Elo의 4배로 적용된다.[3] 이때의 장점은, 만약 A와 B의 elo가 같아질 때 까지 계속해서 둔다고 할때, k값이 없었으면 A와 B는 각각의 Elo의 중간값에서 만나게 되어 이미 수많은 경기를 치러온 A의 Elo가 신인 B로 인해 심각하게 왜곡된다. 그러나 k값을 적용한다면 B는 A가 Elo를 잃는 정도보다 훨씬 많이 Elo를 가지므로 A와 B의 격차가 빨리 줄어들고, 이에 따른 A가 잃는 Elo도 줄어들기에 머지않아 A의 점수대 부근에서 만날것이다.

4. 사용



4.1. 체스에서


세계체스연맹(FIDE)에서 하며 아무나 다 주는건 아니고 레이팅 1000은 넘는 실력이어야 하는데, 보편적인 지능의 고등학생이 반년 정도 공부하면 도달하는 수준이다. 레이팅 업데이트는 매달 이뤄진다. 레이팅은 로그함수적으로 증가하기 때문에 레이팅이 높아질수록 올리기 힘들다. 약 400 차이 날 때마다 승률은 90%씩 떨어진다.
세계챔피언의 레이팅은 2800대이다. 즉 레이팅 1600차이가 나므로 보편적인 지능의 고등학생이 세계 챔피언을 이길 확률은 '''0.01% 이하'''라는 걸 알 수 있다. 그랜드 마스터#s-3 칭호를 받으려면 레이팅 2500을 넘거나 특정 대회에서 입상해야 된다. 세계 최고급 플레이어의 레이팅은 2750가량이며, 인간 플레이어 중 Elo 레이팅 최고기록은 2882로 2014년 5월 세계챔피언 망누스 칼센이 세웠다. 근데 요즘 나오는 체스 프로그램 엔진 중엔 레이팅이 '''3500'''[4]을 넘는 괴수들도 있어서, 제작사의 뻥카를 감안하더라도[5] 카스파로프가 1996년 슈퍼 컴퓨터 딥 블루 초기모델을 이긴지 15년도 안 돼서 '''일반 컴퓨터가 세계 챔피언을 가지고 노는 수준'''에 도달했다.
프릿츠나 체스마스터 시리즈 같은 전문 체스 프로그램의 경우 간단한 시험을 통해 플레이어의 레이팅이 얼마인지 알려주는 기능이 있다. 실제 레이팅과 비슷해서 믿을 수 있다는 평. 반면에 한게임 체스의 점수는 전혀 믿을게 못된다.
한국에서 공식 레이팅을 획득하는 것은 굉장히 복잡하고 힘든데다 돈도 왕창 깨진다. 그래도 체스에 대한 애정이 있다면 있어서 나쁠 건 없지만. 더 자세한 것을 알고 싶다면 이 곳을 참고하자.

4.2. 체스 이외에서


Elo 점수책정 방식은 특유의 수학적인 합리성으로 인해 체스 이외의 다양한 분야에서 도입되었는데 그 대표적인 분야가 온라인 게임이다. 낮은 점수대에서는 점수를 많이 주고 높은 점수대에서는 적게 줘서 모든 유저의 점수 값이 정규분포에 최대한 가깝게 유지하게 하여 각자 비슷한 실력의 유저랑 매칭되게 하는 것이 궁극적인 Elo 레이팅을 도입한 온라인 게임 운영의 목표이다. 이 목표를 이루는 데 있어서 가장 큰 걸림돌은 일명 부계정, 대리로 불리는 '''낮은 점수대에 있는 높은 실력'''(혹은 반대)의 유저인데, 각자 실력에 맞게 매칭시키는 시스템을 정면으로 거슬러서 유저들의 재미를 반감시키기 때문이다. 또한 정규분포 특성상 양 극단값의 유저들은 그 수가 적어 '''매칭이 오래 걸릴 수 밖에 없다'''는 근본적인 문제가 있다. 또한 장기, 바둑, 체스 등의 심리전 및 개개인의 전략이 중요한 게임이 아니라 다른 요소들이 포함된 게임이라면 그에 맞추어 레이팅 규칙을 지속적으로 수정해 나가야 한다.
외국 스타크래프트 팬사이트인 팀리퀴드에서는 프로게이머들의 Elo 랭킹이 있다.
블리자드 엔터테인먼트도 이것에 영감을 받아 ELL 시스템을 만들었으며, 워크래프트 3 때부터 도입하기 시작했다. 특히 스타크래프트 2에서 MMR등급전 시스템이 정립되면서, 다른 블리자드 게임은 물론 타사 게임들까지 영향을 주어 본격적으로 보편화되는데 한몫했다.
리그 오브 레전드에서 매치 밸런스를 위해 사용하고 있다. 2013년부터의 랭크 게임에서 겉보기는 리그 시스템으로 돌아가고 있으나 실제로는 Elo 레이팅 시스템과 함께 개인의 승수를 반영하여 매치시켜 준다.
워게이밍 시리즈(월드 오브 탱크, 월드 오브 워플레인, 월드 오브 워쉽)에서도 플레이어의 실력을 나타내기 위한 수단으로 사용된다. 못하는 유저와 잘하는 유저를 구분하는 데 확실히 효과가 있다는 평. 단, 월드 오브 탱크 기준 주로 쓰이는 것은 Wn7이나 퍼포먼스 등 유저들이 직접 공홈의 전적 자료들을 분석해서 나온 방식으로, 공홈에 노출되는 전적 자료만으로는 플레이어의 실력을 완전히 반영하지 못한다는 비판도 받고 있다. 워게이밍이 직접 레이팅을 만든다는 소식이 들려오자 게임상에 숨겨져 있는 좀 더 복잡한 자료들을 반영해 현실적이고 효과적인 레이팅을 만들어줄 것이란 기대도 있었으나 8.8 패치로 공개되고 나자 별로 좋은 평을 못 받고 있다. 레이팅은 그저 수치일뿐이고, 공방은 MM 시스템으로 그냥 티어만 맞으면 매치시켜주기에[6] 고수 3명이 소대맺고 공방을 휩쓰는게 꽤나 문제가 되고있다. 이른바 주작소대.
코즈믹 브레이크에서도 배틀레이트, Br이라는 이름으로 쓰이고 있지만 잘 활용되진 못하고 있다. Br제한방이 아니라면 큰 의미가 없는데 Br제한방을 돌만큼 유저수가 많지 않기 때문이기도 하다.
포켓몬스터 게임 시리즈에도 도입되어 있다. 예시로 선·문의 경우 레이팅에 처음 도전할 시에 1500이 책정된다. 하지만 배틀 경험이 없는 라이트 유저들은 1500대에서는 백전 백패하기에 점수 부담이 없는 프리 배틀에서 경험을 쌓고 도전하는 것이 대부분.
축구에서도 사용한다. 여자 국가 대표 FIFA 여자 랭킹에서는 약 15년 전부터 사용했다. 남자 국가대표 FIFA 랭킹는 2018년 8월 이후부터 사용한다. 남자 국가대표 비공식 사이트 eloratings.net[7]은 전 경기를 소급 적용해서 사용한다. 남자 클럽 비공식 사이트 clubelo.com는 유럽 축구의 전 경기를 소급 적용해서 사용한다.
파이널 판타지 14 패치 4.5에 추가된 마작 미니게임에도 도입되어 있다.

[1] 바둑을 예로 들면, 1974년 랭킹 1위 고바야시 고이치의 레이팅은 3259점이고 2017년 1위 커제의 레이팅은 3668점인데,아무리 40년간 연구의 차이가 있더라도 커제가 전성기의 고바야시를 90% 승률로 이긴다고 볼 수는 없을 것이다.[2] 단 이땐 2300점 이하여야 한다.[3] 졌을때도 B의 Elo 하락은 A의 Elo 상승의 4배로 들어가나 극히 미미하다.[4] 2020년 기준으로 컴퓨터 체스 엔진의 ELO는 3600을 넘보고 있다. https://www.rankred.com/chess-engines/[5] CPU를 4개 다는 등 반쯤 체스전용 컴퓨터로 개조를 한 상태로 측정한거다.[6] 헤비의 경우 중형보다 mm값이 20%높지만 별로 의미는 없다.[7] 하지만 기본점수가 국가별로 다르며(잉글랜드 2000점, 웨일스 1500점), 구 아일랜드 축구 국가대표팀의 기록이 북아일랜드 축구 국가대표팀의 기록이 아닌 아일랜드 축구 국가대표팀의 기록으로 계승되는 등의 문제점이 있다. 또, 대체로 최약체인 FIFA 미가입국도 랭킹에 포함되어 있고, FIFA 미가입국은 서로간의 공식경기만 갖게 되므로 랭킹이 뻥튀기되는 경우가 많다.