알파고
공식 홈페이지
[image]
1. 개요
알파벳의 구글 딥마인드에서 개발한 바둑 인공지능 프로그램. '''프로기사를 맞바둑으로 이긴 최초의''' 프로그램이기도 하다. 이름에서 "Go"란 일본어로 바둑을 뜻하는 碁(바둑 기. 일본어 음독은 "고")[2][3] 를 의미한다. 이는 일반적으로 서구 언론에서 바둑을 의미할 때 "고"란 말을 쓰기 때문이다.
2016년 3월 15일 한국기원에서 (명예) 프로 九단 단증을 수여하게 되어 알파고 '''九단'''이 되었다. 또한, 객원기사 자격으로 한국기원에 등록되었기 때문에, 가능성은 낮지만 언제든지 한국기원에서 개최하는 대회에 참가할 수 있다. 심지어 세계 바둑 Elo 레이팅 점수 1위였으나, 현재는 알파고 개발진측에서 물러나기로 선언한 뒤로 모든 기록이 말소되었다.
2. 사양 정보
초기엔 하드웨어로는 CPU와 NVIDIA GPU를 이용한 병렬 계산을 사용한다고 발표했다. 물론 가장 중요한 것은 하드웨어보다 소프트웨어 쪽으로. 이렇게 병렬연결된 상태의 알파고 vs 싱글 알파고 간의 바둑에선 77% vs 23%의 승률이 나왔다고 한다. 개별 컴퓨터가 20% 이상의 승률을 보여줬다는 것만으로도 얼마나 학습이 잘 되어 있는지를 알려주는 대목이다.
판후이와의 대결에서의 알파고는 1202개의 CPU와 176개의 GPU를 사용했다. 2016년 3월의 이세돌 九단과의 대결에서는 GPU대신 48개의 TPU를 사용했다. 마스터 버전과 제로 버전에서는 대폭 줄여 4개의 TPU만을 사용했다.
TPU라는 게 뭐냐 하면 딥 러닝에서 주로 사용되는 벡터/행렬 계산을 병렬처리할 수 있게끔 특화된 하드웨어이다. 물론 GPU도 해당 목적으로 사용되기는 하지만 GPGPU에 비해 TPU는 넘사벽급의 와트당 전성비를 자랑한다. 결국 구글은 1년 전부터 TPU를 사용하고 있었고 딥 러닝 오픈소스 툴 텐서플로우도 TPU용으로 개발된 것이었으며, 외부에 공개한 TensorFlow는 GPU용으로 이식한 것이다. 구글 엔지니어 블로그 해외기사 TPU?
알파고가 항복하면서 띄운 팝업창의 모습을 보면 최소한 모니터가 설치된, 클라이언트에 해당하는 컴퓨터에서는 우분투가 사용되는 듯 하다. 관련기사 다만 분산 컴퓨팅을 하는 알파고의 특성상 여러 개의 컴퓨터와 연동되어 작동하게 되어 있는데, 나머지 시스템의 OS도 우분투라고 확신할 수는 없다.
3. 상세
구글에 인수된 딥마인드에서 개발한 머신러닝 기반 바둑 프로그램으로, 자기 자신과의 자가대국을 통한 학습이 가능하다. 사내 테스트 결과 다른 바둑 인공지능 프로그램들을 상대로 495전 '''494승''' 1패를 기록했다. [4] 이 중 한 판은 알파고의 '실수'로 졌다고 하며 그 약점은 이미 보완이 끝났기 때문에 명실공히 현 최강의 인공지능 프로그램으로 군림하고 있다. 현재까지 나온 모든 바둑 인공지능을 성능으로 압도하는 모습에 일부 개발자들 사이에선 젠(Zen)이나 크레이지스톤(Crazystone) 등의 프로그램들이 지금도 존재 의미가 있는가, 바둑 인공지능 대회인 UEC를 계속 지속해야 하는가 등을 투표하는 등 굉장한 충격을 받고 있다. #
덤으로 서로 바둑 최강국임을 자부하며 10년 넘게 바둑 인공지능을 개발해오던 한국, 중국, 일본의 개발자들은 그 모든 기술과 노하우들이 고작 개발이 1년 좀 넘은 정도[5] 인 알파고가 발표됨과 동시에 전부 따라잡히며 성능으로도 처참하게 발려버리는 엄청난 격차가 생겨 순식간에 모든 프로그램을 한물 간 프로그램으로 만들어버리는 안습한 상황이 벌어졌다. 딥 러닝 기술의 위엄이 드러나는 대목.
컴퓨터 비전이나 음성 인식 등 패턴 인식류 AI 쪽에서 딥러닝이 나오면서 최근 2년 동안의 결과가 지난 30~40년간의 결과를 다 발라버리는 사례는 비단 바둑뿐만은 아니다. 그러나 딥러닝은 나름대로의 최신 트렌드인데다 이미지, 음성, 자연어 처리같이 해야 할 일이 산더미 같은 상황에 바둑에 연구진을 투입할 수 있는 여유를 가진 곳은 드물다. AI와 하드웨어, 분산 처리 모두에 풍부한 박사급 인력을 가진 구글에서나 해볼 만한 일이며, 현 시점 한중일에서는 비슷한 것을 시도해 볼 수 있는 회사는 없다고 보면 된다. 쉽게 말해 돈 안 되는 사업에 최고급 인력과 자본, 시간을 양동이채로 퍼붓는 양상이 가능한 회사만이 할 수 있는 일이다. 다만, 구글이 이걸 개발하는 이유는 궁극적으로 범용인공지능을 개발하기 위한 하나의 도전과제이기 때문이다. 다시 말하자면, 범용인공지능을 개발하면 벌 수 있는 막대한 돈을 생각한 장기적 관점의 투자인 것이다.
앤드루 응 교수를 데려간 바이두에서 몇 년 뒤 비슷한 것을 시도해 볼 수 있을 거라고 전망 되었지만, 사실 페이스북이 훨씬 먼저(구글 딥마인드보다는 느리지만) 범용 인공지능의 일환으로 딥러닝 바둑 인공지능을 개발하고 있다. 기사 고바야시 고이치 九단한테 호선으로는 패배했다고. 알파고처럼 처음부터 어마어마한 데이터를 쏟아넣는 형식은 아니고, 페이스북은 프로 바둑기사와 비슷한 수준으로 두면서 경량화하여 개별 컴퓨터 레벨에서 돌아가는 인공지능을 개발하는 것이 목표이다. 궁극적으로는 바둑 인공지능을 만들면서 튜링 테스트를 통과해서 페이스북의 개인정보 관리에 쓰려는 것이지만 말이다.
흔히 알파고의 강점이 엄청난 하드웨어를 바탕으로 한 계산량이라고 생각하는 경우가 많다. 그러나 알파고가 기존 바둑 프로그램과의 가장 큰 차이를 보이는 부분은 하드웨어가 아니라 소프트웨어의 알고리즘이다. 알파고는 일반 컴퓨터에서도 돌릴 수 있다. 단지 지금보다 기력이 떨어질 뿐 컴퓨터 1대[6] 에서 돌아가는 알파고를 CPU 1,000개가 넘어가는 알파고가 이길 확률이 '''고작''' 77%였다. # 논문 부록에 나온 내용에 따르면 트리 탐색에는 수확 체감의 법칙이 적용되어 하드웨어 파워를 더 늘려도 기력이 비례해 올라가지 않았으며, 어느 수준에서 정체되었다고 한다. 이세돌전과 판후이전의 하드웨어 성능이 비슷한 이유도 이 때문이며, 알파고가 대국 중에 하드웨어를 많이 쓰는 이유는 추가 탐색으로 얻는 저 23%의 차이도 실제 대국에서는 중요하기 때문이다.
GitHub에 알파고의 논문을 토대로 알파고를 구현하는 프로젝트가 공개되어 있다. 완전한 구현은 아니며, 아직 초기 단계라고 한다. 현재는 업데이트가 되고 있지 않지만, 절예나 딥젠고, 릴라 등 많은 딥러닝 기반 인공지능들이 딥마인드의 논문들을 기반으로 제작, 업그레이드 되고 있기 때문에 사실상 이들이 알파고의 후손일수도?
4. 기풍
우선 초중반이 매우 강하다. 원래 바둑 AI들이 등장했을 때, 사람들은 '기계라 계산에 강할 것이므로 후반에는 강하지만 초중반에는 사람의 직관을 따라올 수 없을 것이다.'라고 생각했으나 이는 AI의 알고리즘을 정확히 이해하지 못한 생각이었던 것으로 드러났다. 실제 절예나 딥젠고 등의 다른 바둑 AI들도 초중반에서 극강의 모습을 보여준다. 초중반에는 후반보다 판단해야 할 가짓수가 많고 변화도 복잡할 수 있어 인간도 철저한 계산보다는 직관을 통해 유불리를 판단하는 수준인데, 딥러닝을 통해 인간의 직관을 모방한 기계의 대세 판단 능력이 오히려 인간을 능가하고 있다.
좀 더 자세히 설명하자면, 계산해야 하는 가지수가 적은 후반에는 인간이 기계의 계산 능력에 대항할 수 있지만, 그 경우의 수가 무시무시하게 많은 초중반에는 세력이니 직관이니 하는 인간의 어설픈 시각이 기계의 계산능력을 따라가지 못하는 것이다. 결국 알파고는 ‘모든 것은 계산으로 감당할 수 있다’는 새로운 사실을 바둑계에 뼈저리게 알려준 셈.
초중반을 유리하게 가져갔다면 후반에는 마치 실수나 버그인 것처럼 보일 정도로 철저하게 물러서면서 설렁설렁 두기 시작한다. 김성룡 9단은 이를 '닦아버린다'고 표현했다. 초중반에 수십 집을 벌어놓고 후반에 다 내주는 경우도 흔하다.[7] 다만 딱 이길 만큼만 물러난다. 커제와의 3국에서 커제가 어디까지 봐주나 보자라는 식으로 강수를 남발하자 '더 이상 내주면 역전당한다'라고 판단했는지 커제의 대마를 깔끔하게 잡아버린다.
4.1. 약점
알파고가 처음 등장했을 땐 정보가 부족해 기풍과 약점에 대해 거의 연구되지 못했지만, 이후 다른 딥러닝 기반의 인공지능들이 공개되면서 알파고의 단점과 약점 또한 알려졌다. 아래의 단점들은 딥러닝 기반의 인공지능들이 공통적으로 가지고 있다고 보면 된다.
첫번째는 중후반 끝내기이다. 딥러닝으로 중반 이후를 학습하기 위해선 그 시점까지 미세하게 진행된 엄청난 양의 기보가 필요한데, 이는 알파고끼리의 강화학습에서도 잘 나오지 않는다. 비슷한 딥러닝 알고리즘을 사용하는 절예나 딥젠고의 경우 인간이 무리없이 계산하는 후반의 사활과 끝내기에서 실수를 보여 역전당하는 경우가 있었다. 중국 프로가 찾아낸 알파고 제로의 실수에서도 볼 수 있듯이 패가 걸려있는 복잡한 상황에서 알파고를 비롯한 다른 인공지능들이 잘못된 선택을 하는 것을 알 수 있다. 알파고의 초중반이 워낙 막강해 버티는 것이 불가능할 뿐 일단 중후반까지 팽팽하게 갔다면 의외의 모습을 보일 수도 있다는 말. 문제는 인간을 상대로 이 상황까지 온적이 이세돌 4국 딱 한번뿐이라는 점.
두번째 약점은 사활 문제이다. 특히 퀴즈를 위해 강제로 이상한 모양을 만든 경우 거의 동작하지 않는다고 보면 된다.
세번째는 축버그이다. 인공지능의 대표적인 버그라고 할 정도로 유명하다. 축의 결과를 보려면 수십수짜리 수읽기를 해야되기 때문에 사람의 경우 축머리만 확인하도록 교육받고, 구식 인공지능도 이 부분에 예외 코드를 넣어서 처리했다. 하지만 별도의 지식 주입 없이 강화학습만을 사용하는 제로계열 인공지능은 실제로 될때까지 두어보고 학습되기를 바라는 수밖에 없다. 카카오에서 개발한 인공지능 '오지고'도 축이 학습되지 않아 인간에게 싱겁게 패했다.#
네번째는 덤을 마음대로 설정할 수 없다는 것이다. 인공지능은 확실한 반집승과 불확실한 대승 중 전자를 선택하지만, 덤이 한집 차이나게 되면 확실한 반집승은 확실한 반집패가 되어버린다. 별도의 지식 주입 없이 학습했다는 말은 반대로 덤의 차이 같은 미묘한 페널티를 인식시킬 수 없으며, 이를 해결하기 위해선 덤을 바꾼 규칙으로 밑바닥에서부터 다시 학습을 시작해 별개의 버전을 만드는 수밖에 없다는 소리이다. 그래서 인공지능으로 덤이 지금(중국식 7.5집)보다 더 적거나 없던 시절의 바둑을 검토할 땐 인공지능을 100% 신뢰해서는 안된다. 또 인공지능으로 접바둑을 둘 경우 백이 덤은 그대로 가진 상태에서 흑이 돌만 깔고 두는 이상한 규칙을 사용할 수밖에 없다.
5. 알파고 이후의 바둑 변화
- 기존의 바둑 이론들에 대한 의심과 파훼 노력, 고정관념 탈피, 인간 바둑 전체에 대한 전면적인 재검토가 진행되고 있다. 이게 바로 알파고가 인간 바둑계에 내려준 가장 큰 선물이라 불리고 있다.
- 대표적으로 예전에는 상대의 화점에 대해 바로 3의 3으로 침투하는 것은 지나치게 실리적인 수여서 불리하다고 했지만, 인공지능은 묻지마 33이라고 부를만큼 이 수를 자주 썼다. 현재 극초반 3.3 침투는 누구나 다 하는 정수가 되었다.
- 간단하게 말하면 기존에도 중요했지만 복기의 중요성이 훨씬 더 크게 올라갔다. 복기를 통해 여러가지 수를 시험해보고 그 수를 다른 대국에서 써먹어야 한다는 것. 기존에 복기를 할 때에는 어느정도 고정관념 하에서 서로 아는 부분은 제외하고 문제 수들만 복기하곤 했는데, 이제는 전면적으로 처음부터 끝까지 복기를 해야하는 시대가 개막하였다.
- 프로 기사들이 AI로 훈련하자, 결국 인간의 바둑이 상향 평준화되었다. 3-3 수법이 대중화되고 이전보다 포석이 다양해졌다. 또한 바둑의 해설에도 영향을 주어 실시간으로 승률을 분석할 수 있게 되었다. 커제가 더이상 최강자 자리에서 있을수 없다고 불만을 표할정도다. 다들 AI스타일로만 둔다고.
- 인공지능은 바둑 세계 최강자의 조건을 새롭게 정의했다. 개성은 없어도 되지만 약점이 있으면 안 된다.
6. 대국 내역
6.1. 요약 정보
2017년 5월 27일 기준. 프로 바둑 기사와의 공식 전적은 총 '''13전 12승 1패'''이다.
- vs 판 후이 : 5전 5승 0패
- vs 이세돌 : 5전 4승 1패
- vs 커제 : 3전 3승 0패
- vs 판 후이 (속기전) : 5전 3승 2패 (기보 미공개)
- 인터넷 대국 (속기전) : 한중일 정상급 기사를 상대로 60전 60승 0패[8]
- vs 중국기사 5명 (상담기) : 1국을 두어 승리했다.
68전 67승 1패로 집계하는 경우도 있는데, vs 이세돌, vs 커제, 인터넷 속기전 60전을 기준으로 나온 전적이다.
기타
- 페어 바둑 : 양쪽팀에서 알파고가 같이 두었기에, 승패에 의미를 부여할 순 없다. 그래도, 기보는 남았다.
- 자체 대국 : 딥마인드는 알파고의 은퇴 발표후, 알파고끼리 대전한 기보 중 50개를 추려 공개하였다.
6.2. vs. 판 후이 二단
2013-2015년 중국 프로 기사이자 유럽 바둑 챔피언인 판 후이(二단)[9] 와 대국하여 5전 전승을 거두었다. 토너먼트 경기(Tournament games)라는 표현으로 보아 19 x 19에서 맞바둑(중국식 계가법으로 덤 7집 반)이었다. 유럽에서 활동한다고 해도 프로기사가 인공지능에게 호선으로 패배한 것은 바둑 인공지능 역사상 처음 있는 일이다. 그것도 5판이나 연속으로!! 2015년 10월 기준[10] 으로 二단의 기력이라고 하며 분산 컴퓨팅 적용시 四~五단까지 상승한다고. 이 때문인지 네이처 소식란에서 소개하기도 했고, 2016년 1월 28일(1월 마지막 주) 표지에 판 후이와 겨룬 첫 판(2015년 10월 5일 월요일) 기보가 들어갔다. sgf(Smart Game Format)형식으로 기록된 기보
[image]
대국 장면을 찍은 모습이다.
최종 결과[11] 장면도에서, 흑이나 백 세모 표시가 있는 돌이 해설을 시작하는 곳이다.
- 문제의 장면: 흑▲는 4국 흑157
- 알파고의 행마: 백△는 1국 백56
- 알파고의 응수타진: 백△는 1국 백84
- 또 다른 장면: 흑▲는 3국 흑47
- 또다른 장면: 백△는 4국 백118
- 알파고의 정석 운용: 흑▲는 2국 흑29
- 알파고의 사활 능력: 백△는 2국 백134
- 알파고의 삭감 능력: 백△는 2국 백146
- 알파고의 공격력: 백△는 3국 백64
- 또다른 장면: 백△는 4국 백20
- 알파고의 결정력: 흑▲는 4국 흑97
- 알파고의 패싸움 능력: 흑▲는 5국 흑145
참고로 판 후이와는 비공식 대국으로 속기전 형태로 5판을 두기도 하였는데, 여기에서는 판 후이가 그래도 2승을 따내었다. 즉, 알파고가 3승 2패를 한 것. 이는 비공식 대국이기에, 공식적인 승패 기록은 알파고의 5전 5승 무패이다. 재밌는 것은 판 후이가 알파고와 이세돌과의 대국 이전까지만 하더라도 인공지능에게 패배한 첫 프로기사, '''아마추어''' 최강자급 실력, '''약한''' 프로 기사등으로 온갖 굴욕을 겪었었지만 알파고가 이세돌마저 꺾으면서 재평가받고 있다. 구글 딥마인드 챌린지 매치 시점으론 처음엔 바둑인들조차 판 후이가 누구인지 아는 사람이 적었지만 지금은 바둑인들은 물론이고 전세계적으로도 이름을 알려서 인터뷰도 자주 하고 방송도 나가고 나름 인기 스타가 됐다. 인생 참 알다가도 모를 일.
6.3. '''vs. 이세돌 九단'''
알파고는 판 후이를 꺾은 것에 힘입어 2016년 3월 9일과 10일에 한국의 프로 기사인 이세돌 九단과 대국하였다. 매치는 당시 한국에서 유례 없는 관심을 보였으며 1~3, 5국은 모두 알파고가 불계승을 거뒀으며 4국은 이세돌 9단에게 불계패했다. 이번 대국의 목적 가운데 하나가 알파고의 약점을 찾아내고 인공지능을 더욱 발전시키는 데 있었기 때문에 일반적인 프로바둑과 달리 승부와 상관 없이 5국을 모두 두었다.
자세한 내용은 구글 딥마인드 챌린지 매치 참고.
6.3.1. 명예 프로 九단 수여
5국 종료 이후 홍석현 중앙일보 회장(한국기원 총재 겸임)이 한국기원 총재 자격으로 알파고한테 명예 프로 九단 단증을 수여했다. 기사 명예 프로라고 하지만 실제로 한국기원 데이터에도 九단 명단에 포함시킬 예정(객원기사 자격)이라고 한다. 이제 진짜로 알파고가 프로 九단이 되는 것.
당초에는 전통적으로 하던 것처럼 한자에 붓글씨로 직접 쓴 단증을 수여하려고 하였다가, 한국인과 영국계 기업 간의 대결이었다는 점을 고려해 한글/영문으로 병기된 단증을 수여하는 것이 어떠냐는 지적을 받아들여, 한국기원에서 부랴부랴 새 단증을 뽑았다. 다만 이것도 九단이 9단으로 표기되어 [12] 별로 좋지는 않다. 대국 후 기자회견에서 둘 다 수여(한글/영문본은 사진찍는 대외용, 원본은 기자회견 직전에 수여되었다고 한다)되었다.
6.3.2. 이후 다른 프로기사들과 대국?
이세돌 九단과의 매치가 화제가 되면서 많은 프로기사들이 알파고와의 대국에 관심을 두고 있다. 당시 커제 九단이 이세돌 - 알파고 대결을 보고 "왜 나(커제)는 빼고 하냐"라고 하면서 불평이 많았다는 후문[13] 이 발언 때문인지(?) 중국의 바둑 인공지능인 NOVUMind와의 대국을 제의받았으나, 커제 九단은 컴퓨터와의 대국 계획은 없다며 부인했다. #
이외에도 일본 최강자 이야마 유타 9단, 여류바둑계 한국 주장인 최정 六단과 기타 많은 바둑기사들이 알파고와 대국을 하고 싶다고 한다.(by 문도원 3단 in 바둑 비타민)
6.4. 인터넷 바둑에서의 활동
허사비스 딥마인드 대표는 2017년 초 알파고가 다시 활동할 것이라고 언급했으며#, 실제로 2016년 12월 말부터 2017년 1월초까지 한국의 타이젬 바둑과 중국의 텐센트에서 서비스하는 한큐바둑(구리 九단이 회장)에서 ‘Magister(P)’(타이젬), ‘Master(P)’(한큐)이라는 ID로 활동하며[14] 한·중·일 정상급 기사들에 '''60연승'''을 거둬 전세계 바둑계를 경악시켰다.[15] 격파된 일류 기사들만 해도 커제, 박정환, 안성준, 스웨, 롄샤오, 탄샤오, 양딩신, 강동윤, 김지석, 구리, 이야마 유타, 김정현, 신진서, 저우루이양, 판팅위, 탕웨이싱, 리친청 등 쟁쟁한 기사들이다. 자신을 최초로 이기는 사람에게 상금 10만 위안(한화 1천7백만 원)을 지급하겠다고 밝힌 바 있다. 여담으로 이 60번의 대국 중에 흉내바둑을, 그것도 맞바둑에서 먼저 두는 흑으로 흉내낸 용자가 있었으니 대만의 저우쥔쉰(周俊勳) 9단이다, 물론 알파고가 60연승을 한 걸 보면 알듯 안 먹힌다.[16]
정체를 밝히기 전부터 ID가 한국 국적이며 (P)는 프로 기사에게 주어지는 점을 들어 한국에서 명예 9단을 수여받은 알파고일 것이라고 추측되었다. 그리고 결국 해당 계정이 알파고가 맞음이 관계자의 트위터를 통하여 확인되었다. 기사 이때 하사비스가 알파고를 소개하면서 '새로운 프로토타입'이라고 했기 때문에 단순 업그레이드 버전이 아니라 신경망 구조 또는 학습방법이 다른 새로운 버전인 것으로 추측된다.인터넷에서 기보를 정리하고 있으나 빠진 대국이 아직 많다. Master/Magister aka AlphaGo game trees 60회 대국기보sgf파일 3건의 자가대국 등 공개된 다른 기보와 합본판
참고로 이세돌과 붙은 알파고 버전과 이 버전(밑에서 나오는 커제와 붙은 버전이기도 하다)는 이세돌 버전보다 3점 더 차이가 난다고 한다. 이 정도면 실력면에선 알파고 자신말고는 당해낼 자가 없는 셈.
6.5. vs. 커제 九단
커제는 당시 세계 랭킹 1위라는 상징성에, 이세돌전 당시부터 대결에 관심이 많았으며, 2016년 3월엔 중국기원을 통해 알파고와 대국을 하겠다고 공식 선언한적도 있는 등 대결에 적극적인 자세를 보여왔기 때문에 이후 공식 대국을 가질 확률이 가장 높았다.
결국 2017년 5월 23일부터 알파고와 3번기를 두는 것으로 공식 확정되었으며, 알파고가 3전 전승을 거뒀다. 일부 혐중네티즌이 패배 이후에는 중국내에서는 그것과 관련된 내용을 일절 방송하지 않았다는 낭설을 퍼트리고 있으나 당연히 대대적으로 보도했다. 이미 웹으로 중계까지 했는데 감춘다고 가려질 것도 아니고..
자세한 내용은 바둑의 미래 서밋 문서 참고.
6.6. 바둑계 은퇴 선언과 그 이후
구글 딥마인드의 허사비스 최고경영자는 '바둑의 미래 포럼' 폐막 기자회견에서 "이번 행사가 알파고가 참가하는 마지막 바둑 대국"이라고 밝혔다.#. 공식 전적은 총 13전 12승 1패. 기보를 남긴 대국 기준으로는 총 74전 73승 '''1패'''.[18] 이후 알파고를 교육용도로 공개할 수는 있다고 밝혔다.
사실 알파고는 바둑에서만 손을 뗀 거지 다른 일은 여전히 다른 이름으로 하고 있다. 알파고의 진정한 정체는 모든 IT 서비스에 적용되는 단일 인공지능을 목표로 개발되는 물건이라는 것이다. 일련의 바둑대전은 그 인공지능이 바둑이라는 게임 상대로 어느정도의 성과를 낼 수 있는지 시험해보는 테스트 성격이었고, 이제 충분히 연구가 진행되었으니 더 이상 여기에 자원을 투자할 필요가 없는 것.
이후 구글은 알파고 자체의 기보를 50개 공개했다. 5월 27일부터 하루에 10판씩 공개하기로 했지만, 28일에 남은 40판이 모두 나왔다. 알파고의 자체대국 내용은 알파고 vs 알파고 문서참조.
2017년 10월에는 네이처지의 논문을 통해 '''알파고 제로''' 버전이 공개되었지만, 이는 4월에 제출한 논문이 심사 끝에 10월에 공개된 것이므로[19] 은퇴를 번복한 것은 아니다. 레딧에서 있었던 개발자 문답에 따르면 알파고의 HW는 이미 다른 용도로 사용중이며, 이 버전으로 새로운 대결을 할 예정도 없다고 한다.
2017년 12월에는 arXiv에 올린 논문을 통해 '''알파 제로'''가 공개되었다. 알파고 제로의 알고리즘을 다른 게임에도 적용할 수 있도록 일반화해서 바둑, 체스, 쇼기에서 기존 세계 최고 알고리즘들을 꺾었다.
6.7. 개발 완전 종료 선언
2017년 12월 14일(미국시간), 아자 황 박사가 알파고와의 여정을 종료(The End)한다며, 알파고의 모든 자원을 다른 인공지능 개발자원으로 변경할 것이라고 밝혔다. 2017년 12월 12일 내놓은 알파고 교육툴이 마지막 물건. 기사
7. 동작 방식
알파고는 다음 세 가지 다른 인공지능 구조를 혼합하여 동작하도록 되어 있다. '''알파고의 대국 메커니즘'''도 참고. 또 다른 정리물
- 가치망 (Value Network): 현재 국면에서 이길 확률이 얼마인지를 점수로 뽑아낸다. 일반적인 강화 학습에서 보는 가치 함수 역할. 심층 컨볼루션 신경망(Deep Convolutional Neural Network)이다. 탐색 과정이 없는 행렬 연산이므로 순식간(0.1초 미만)에 결과가 나온다.
- 정책망 (Policy Network): 바둑판을 인식하여 직관적으로 어디에 두는 것이 좋을지 각 위치에 대한 점수를 뽑아낸다. 역시 심층 컨볼루션 신경망(Deep Convolutional Neural Network)이며, 결과는 순식간에 나온다.
- 몬테 카를로 트리 검색(MCTS): 다양한 경우의 수를 따져 보는 인공지능. 착수할 시간이 충분히 주어질 경우 가장 오래 걸리는 부분이지만 반대로 최적화할 여지는 적다. 훈련된 정책망을 사용하여 직관적인 수부터 먼저 고려한 뒤 가치망으로 그 가치를 계산하는 것이 일반적인 MCTS와의 결정적인 차이.
- 구글 딥마인드 내부에는 다양한 버전의 알파고가 존재한다. 위 셋 중에 하나 혹은 둘만 쓴 버전도 있고, 한 대에서 돌아가는 버전, 클라우드용 버전, 신경망의 커널을 다르게 한 버전 등도 있다. 판후이전에 사용한 버전은 세 가지를 모두 쓴 클라우드 버전이며, 논문에서는 Elo rating 3140점으로 추정하고 있었다. 이세돌과의 대국에서 사용된 것은 버전 18, 분산처리 버전이며, 이 버전의 Elo rating은 3586점(세계 2위)로 집계되었다. 일단 이 레이팅은 이세돌과의 5번기 승패만으로 추정한 값이므로 실제 실력을 다 반영하고 있다고 보기엔 무리가 있다.
기존의 사고방식대로 나온 경우의 수를 따지는 방식이 아닌, 여러 방식으로 승부를 '예측'하기 때문에 실제 바둑이 알려진 경우의 수보다 훨씬 적은 수를 연산한다고 하며, 계산해야 할 수가 적어지는 대국 후반으로 갈 수록 점점 더 계산이 빨라지고 강해진다고 한다. 실제로 이세돌과의 대전에서는 후반에는 1분 이내에 착점을 하는 무시무시한 속도를 보여주어 초세기로 끌어가지도 못했고, 이세돌이 돌을 던지기 30분 정도 전에 이미 불리한 경우의 수를 제거하고 자신의 승리 예측을 개발진에게 알렸다고 한다. 그때는 한창 해설자들이 '박빙이다' 라고 한 때였고 그 말을 전해들은 하사비스는 묘한 미소를 보였다고.
7.1. 학습 방법
- KGS 공개서버에서 플레이된 게임들 중 비교적 고수(6단부터 9단)의 게임 16만 개로부터 약 3천만 수를 가져와 정책망을 학습시킨다. 교사학습(Supervised Learning)으로 진행된다. 이 부분은 바둑의 룰에 따라 착점하는 것을 이해하는 초기화 과정이라고 보면 된다.
- 교사학습된 다양한 버전의 정책망끼리 서로 대전시키며 정책망의 성능을 개선해나간다. 강화학습(Reinforcement Learning)으로 진행된다.
- 스스로의 대전 기록을 복기하며 가치망의 성능을 개선해나간다. 강화학습(Reinforcement Learning)으로 진행된다.
알파고가 3천만 건의 프로기사의 기보를 습득해서 학습했다는 이야기가 있으나, 이는 자기 자신과 대국을 두는 자가 학습으로 3천만 건의 대국을 소화했다는 말이 와전된 것이다. 물론 대국 1회에 1개의 기보가 생겨나지만 당연히 이런 의미는 아니다. 4주 동안 백만 건의 자가 학습 대국을 치렀다는 내용 역시 백만 건의 기보를 습득했다는 식으로 와전되고 있다. 상당수의 언론이 용어를 분명하지 않게 쓰고 있는 데다가 정신승리성 찌라시들 덕분에 해당 내용이 계속해서 퍼지고 있는 중이다.
이러한 알파고의 학습 특징의 근간이 되는 딥 큐 러닝(Deep Q-Learning)을 알기 쉽게 예시용으로 아타리용 벽돌깨기(Breakout) 게임에 적용한 것이 위의 동영상이다. 이 동영상에서 딥 큐 러닝에게 주어진 정보는 단 두 가지, 게임 화면과 '최고 점수를 내라'라는 목표. 딥 큐 러닝은 공이 무엇인지, 막대가 왜 필요한지, 저 위의 벽돌이 뭔지 전혀 모르는 그야말로 ''''백지' 상태'''', 시작한 지 10분 정도는 제대로 조종조차 못 하는 모습을 보였으나, 120분이 지난 무렵에는 꽤 괜찮게 플레이를 하고 있으며, 240분이 지난 후에는 터널을 뚫어 공을 블록 위로 올리면 점수 획득에 유리하다는 것을 '''스스로''' 터득한 플레이를 보여준다.
A-Jen 시스템은 픽셀 단계부터 모든 걸 스스로 학습했습니다. 무엇을 조종해야 하는 지도 몰랐고, 게임의 목표도 몰랐습니다. 100회 정도 시도했는데 그리 잘하지 못하네요. 볼을 거의 놓칩니다. (after 300 games라는 화면이 뜬후) 그러다 배트로 볼을 맞춰야 한다는 생각을 갖게 됩니다. 300회를 진행하니 인간처럼 게임을 하고, 그리고...그리고...매번 볼을 다 받아 냅니다. 이에 만족해서 (after 500 games라는 화면이 뜬후) 200회를 더 플레이 시켰더니 깜짝 놀랄 일이 생겼는데 (벽돌이 쌓인 곳) 양쪽 구석에 구멍을 내어 그곳에 공을 집어 넣는 최선의 전략을 찾아 낸 것입니다. (청중 웃음) 이 시스템 개발자들은 인공지능 전문가이지만, 벽돌깨기는 잘 못해서 이런 전략도 몰랐죠. 창조자가 피조물로부터 배움을 얻은 것입니다.
2016년 2월 26일. 옥스퍼드 대학교에서 열린 Artificial Intelligence and the Future 中 강연 풀영상 링크[21]
. 해당 장면은 영화 알파고의 초반부에도 등장한다.
8. 버전
알파고의 기력과 기풍은 지속적으로 변경, 발전하고 있는 상태이기 때문에 "알파고는 ~이다"라고 평가하기가 어렵다. 정보 공개가 딥마인드 인사들의 강연 등을 통해 단편적으로 공개되기 때문에 어떤 내용이 어떤 버전 이야기인지 알기도 쉽지 않은 편이다.
8.1. 버전 ?
- 전적 : 494승 1패(vs 기존 인공지능 바둑 프로그램들)
8.2. 버전 13
- 전적 : 5승 0패(vs 판후이, 비공식 속기전을 포함할 경우 7승 3패)
8.3. 버전 18
- 전적 : 4승 1패
김성룡 9단과 알파고의 이세돌전 바둑을 검토한 프로들의 말에 의하면 사실상 9단, 그것도 최정상급이라고 하였다. 세계 최정상급 기사인 이세돌에게 승리했다는 점에서 너무나 당연한 이야기이다. 하드웨어적으로는 GPU를 사용했던 이전 버전과는 다르게 TPU를 48개 사용한다.
기풍은 철저한 집계산을 통해 중후반 바뀌치기 등에서 실수가 없는 실리형 바둑. 전반적으로 전투를 피하는 편이며 행마도 빠르기보단 굳건한 것을 좋아한다. 패는 진짜 싫어해서(?) 사전에 패를 만들지 않으려고 한다.[22] 다만 계산 시간이 좀 걸리고 실리형이라서 그렇지 진짜 대놓고 전투를 벌이면 무시무시한 실력을 보여주기도 한다. 특히 선수를 두는 타이밍과 손빼는 타이밍이 정말 좋다. 단지 초읽기 대국이나 이세돌과의 대국에서 드러났듯이 복잡한 상황에서 판단이 늦는 경향이 있으며 한 번 실수를 하면 계속해서 말리는 타입인 듯. 이것이 버그인지 아니면 엔진 자체의 한계인지는 아직 판단되지 않았다. 이세돌 9단은 백돌을 쥐었을 때보다 흑돌을 (쥐었을 때) 힘들어 하는 것 같고[23] , (알파고가) 생각하지 못했던 수가 나왔을 때 버그(bug·시스템 오류) 형태로 실수를 한다고 밝혔다.
일각에선 아예 처음부터 상대의 수준에 맞춰주면서(?) 플레이하는거 아니냐는 시각도 있다. 즉 어디까지나 상대를 효율적으로 이기기 위해 게임을 하는 것이기 때문에 아예 상대를 압도적으로 이길 만한 실력을 보이는 게 아니라, 상대 플레이어의 실력을 이길 정도에만 맞춘 게임을 한다는 것. 하지만 이는 부인되었다. #
[image]
2016년 3월 15일 기준, 공식전 결과만으로 집계한 Elo 레이팅은 3586점으로, 세계 2위이다. 그러나 딥마인드 내부적으로는 다양한 버전의 알파고들 사이의 대국 결과를 통해 이세돌전에 사용된 버전 18 알파고의 레이팅을 무려 '''4500점'''으로 추정하고 있었으며[24] , 버전 13 알파고를 '''4점 접바둑으로도 이기는''' 압도적인 기력이었다고 대국 후에 밝혀졌다. ## 이 값이 사실이라면 레이팅 3600 정도인 인간 최고수가 알파고를 이길 확률은 0.5%에 불과하다.[25] 알파고의 4승이 놀라운 것이 아니라 '''이세돌의 1승이 정말로 놀라운 일인 것'''이다. 사진이 공개된 후 "이세돌이 알파고를 한 번이라도 이겨본 마지막 인간이 되는 것 아니냐"라는 반응마저 나오고 있다.
2016년 8월 아자 황 박사의 인터뷰에 따르면 최신 버전의 알파고는 프로를 두 점 접어줄 실력(!)이라고 한다. 기사
8.4. 알파고(마스터)
- 전적 : 64승 0패(vs 커제, 프로바둑기사들)
이세돌전 4국에서 나온 문제를 극복하기 위해 메인 알파고와 분리된 '적 알파고'를 만들어서 운용했으며, 적 알파고의 목적은 알파고를 이기는 것이 아닌 혼란스럽게 하는 것이다. 즉 알파고끼리만 두게 되면 자기 자신을 이기는데에 특화되는 경향이 생기는데[26] , 이를 막기 위해 알파고의 탐색영역을 벗어나는 수를 전문으로 두게 만들었다는 뜻이다. 이를 통해 프로기사들과의 60연전에서는 이세돌전에서와 같은 상황이 한번도 발생하지 않았다고 한다. 학습 효율도 향상시켜서 백지상태에서 이세돌 버전 수준까지 학습시키는데 원래는 3개월이 걸렸으나 현재는 '''1주일'''이면 가능하다고 한다.
하드웨어적으로도 발전이 있었는데, 이세돌 버전은 여러 머신을 연결한 클라우드 버전이었지만 마파고는 1개 머신에서 동작한다. 즉 HW 성능은 훨씬 낮지만, 이를 알고리즘의 향상을 통해 오히려 더 좋은 성능을 낸 것이다. 이전의 알파고는 다수의 TPU 를 엮어서 구성했으며, 총 1202개 CPU와 176개 GPU로 구성되어 있다고 한다. 커파고는 2세대 TPU 단 1개을 사용하는데, 45테라플롭스(TFLOPS)짜리 칩 4개로 구성되어 있어서 총 180 TFLOPS 의 성능을 뽑아낸다. 참고로 2017년 기준 가장 강력한 PC용 그래픽 카드인 GTX1080Ti가 대략 12TFLOPS의 성능이므로, GTX 1080Ti 16대의 성능과 맞먹는다.[27] 관련기사
알파고 제로 논문을 보면 마파고와 커파고는 사실상 동일한 버전인 것으로 보인다. 원래는 바둑의 미래 서밋에 사용된 버전이 알파고 2.0으로 알려졌지만 이는 사실이 아닌 것으로 밝혀졌다.
8.5. 알파고 제로 (알파고 2.0)
인간의 기보 입력 없이 자체 학습만으로 기력을 향상시킨다고 한 버전. 처음에는 바둑의 미래 서밋에서 사용되는 버전이라고 알려졌지만, 사실 하사비스가 인간의 기보 없이 자체의 바둑 학습만으로 기력을 향상시키는 연구를 진행한다고 했을 뿐이지 '바둑의 미래 서밋'에 등장한 알파고가 이 연구의 과정이나 결과라고 언급한 적은 없다.
2017년 10월 19일 네이처에 발표한 논문을 통해 알파고 제로라는 이름으로 공개됐다. 하드웨어는 마파고와 동일한 TPU 4개를 사용하며, 소프트웨어적으로는 가치망과 정책망 2개의 신경망을 사용했던 기존 버전들과는 달리 새로운 신경망 1개만을 사용하도록 변경되었다. 주어진 기보 없이 한 수에 0.4초씩 걸리는 속기를 통해 학습을 진행했다.
학습 시작 36시간 만에 돌파고(이세돌과 상대한 버전) 수준을 능가했으며, 72시간(490만판)을 학습한 뒤에는 돌파고와 실전과 동일한 조건으로 뒀을 때(제한시간 2시간) 100번 둬서 100승을 거두었다. 40일(2900만판)을 학습한 후에는 마파고(커제와 상대한 버전)를 압도하는 수준에 이르러 100전 89승 11패를 기록했다. 구글이 추정한 Elo 레이팅은 5185. 인간의 방식을 전혀 사용하지 않고, 강화학습만을 통해 말 그대로 無(ZERO)에서 神의 경지까지 오른 것이다.
하지만 아쉽게도 이후 훈련을 멈추었다고 한다. 제작자 Q&A에서 왜 40일만 훈련했냐는 물음에 "만약 우리가 3개월 동안 훈련했다면 왜 6개월 동안 안했냐고 물을거잖아?"라고 답변했다. 이 버전으로 인간과 대국할 계획도 없으며, 이미 알파고의 하드웨어와 연구원들은 다른 일에 투입된 상태라고 한다.
참고로, 알파고 제로의 학습에는 TPU 2000개가 투입되었다.# 이는 약 90PFLOPS에 해당되는 무지막지한 연산 성능이고, 이러한 연산 자원을 한 달 넘게 온전히 바둑 연구에만 투입한다는 것은 구글이 아니면 감히 흉내내기 어려운 짓이기는 하다. (2017년 현재 슈퍼컴퓨터 1위의 성능이 93PFLOPS, 2위 성능이 34PFLOPS) [28]
추가로 알파고 제로가 여러 알파고 버전과 대결한 기보를 공개하였다. 기보 정보
알파고 Zero 버전 논문(네이처) 이에 대한 ETRI 이정원 연구원의 평론 AlphaGo Zero 버전의 기보 100개 알파고 Zero 버전 기보 참고사항(바둑 갤러리)
8.6. 알파 제로
논문보기
2017년 12월 arXiv를 통해 공개됐다. 알파고 제로에서 '고'가 빠진 것에서 알 수 있듯이 기존 알파고 제로의 알고리즘을 일반화시켜 다른 게임에도 적용할 수 있도록 한 것이다. 논문에서는 바둑, 체스, 쇼기를 학습했으며, 기존 최강급 알고리즘을 모두 꺾었다. 논문에서는 체스를 위주로 설명했으며, Stockfish를 상대로 승리한 기보 10개를 공개했다. 이를 본 외국의 체스팬들 역시 스카이넷 드립을 쳤다.
흑/백으로 각각 50판씩 두었다.
- 체스: 4시간부터 이기기 시작해 9시간(4400만판) 트레이닝 후 Stockfish8[29] 를 상대로 백으로 25승 25무, 흑으로 3승 47무로 100 판 종합전적 28승 72 무승부 무패로 완승.[30] Stockfish는 전통적인 탐색 트리 방식의 체스 프로그램으로 최고의 레이팅 기록을 가진 프로그램. 알파고의 방식이 고속 탐색 방식보다 우월함을 보여주고 있다.
- 쇼기: 2시간부터 이기기 시작해 12시간(2400만판) 트레이닝 후 Elmo[31] 을 상대로 백으로 43승 2무 5패, 흑으로 47승 3패로 압승.
- 바둑: 36시간(2100만판) 트레이닝 후 알파고 제로를 상대로 백으로 31승 19패, 흑으로 29승 21패로 60% 승률. 단, 알파고 제로는 20블럭 3일 트레이닝 버전으로 최강급 기력(40블럭, 40일)은 아니다. 마스터보다 약하지만 그래도 돌파고보다는 쎄다. 알파고가 3일간 트레이닝한 것을 알파는 36시간만에 넘어섰는데, 이는 트레이닝에 사용된 하드웨어 연산량이 더 높았기 때문으로 보인다.
2020년엔 체스에서 규칙들을 수정한 여러 번형룰을 학습시키고 연구한 결과를 논문을 통해 공개했다. 구현한 규칙은 캐슬링 금지, 스테일메이트 시 승리, 폰이 옆으로도 이동 가능, 후진가능, 항상 2칸 이동 가능, 자신의 기물을 잡을 수 있음 등이 있었다.
8.7. 알파고 교육툴
링크
이세돌전이 끝날 때부터 공개하겠다고 했던 알파고 교육툴이 2017년 12월 11일에 공개되었다. 분석에 사용된 버전은 알파고 마스터이다.
사람이 둔 23만여 판의 기보에서 나온 초반 포석들에서, 6천여가지의 변화도를 제시하면서 알파고의 승률추론 데이터를 제시하는 버전이다. 단순히 현 상태에서의 승률만 보여줄 뿐이고, 몇 수 후엔 알파고 추천 1수만으로 외길 진행하기 때문에, 대국 기능이나 초반 포석들에 대한 더 다양한 참고도와 해설을 원했던 사람들은 실망을 금치 못했다. 이미 알파고 하드웨어가 다른 용도로 사용되었다고 밝힌 시점에서 대국 기능은 물건너 간거지만.
대부분은 20수 남짓에서 끝나지만, 알파고와 인간이 둔 75판의 대국은 50여수까지 진행할 수 있고 변화도도 더 많다.
9. 논란
한얼 법무법인의 전석진 변호사를 필두로, 구글이 실제로는 클라우드 컴퓨팅을 활용한 브루트 포스 방법론에 의존해 대국을 벌이고 있으니 사기극에 불과하다는 주장이 나왔다. 이러한 주장이 여러 기사를 통해 유포되며 많은 사람들에게 알려지고 있다.
- <세기의 대국> "알파고가 이길 수밖에 없는 불공정 게임"
- 한 달 전 이세돌 필패를 예측한 IT전문 변호사
- “알파고 바둑은 컴퓨터 무한자원 활용한 불공정 게임”
- 이세돌을 위한 변명, "알파고 대국은 불공정 게임"
또한 브루트 포스는 너무나 간단한 알고리즘이라 하드웨어 테스트 목적이 아니라면 연구할 가치가 없다. 그래서 고전 중의 고전으로 통하는 3x3 틱택토[32] 에 AI 를 적용한 시도에서도 브루트 포스는 쓰이지 않는다. 즉 이런 주장은 AI 의 기본 중의 기본도 모르는 괴언인 셈이다.
예컨대, 바둑의 경우의 수를 간단하게 추산하기 위해, 매 수마다 기사가 최대 두 군데의 선택지만 고려한다고 가정하자. 대국 상황에 따라 선택지가 하나 뿐인 경우도 있겠지만, 실제로는 둘 이상의 선택지가 있는 경우가 훨씬 많을 것이므로 이 가정은 어느 정도 유효하다고 볼 수 있다. 이세돌과의 제1국이 186수만에 마무리되었으므로 브루트 포스를 시도할 때 고려해야 할 전체 경우의 수는 $$2^{186}$$, 약 $$9.8 \times 10^{55}$$이다. 이 숫자는 일반적으로 바둑 대국의 경우의 수를 논할 때 등장하는 숫자들에 비해 터무니없이 적게 추산한 것이지만 엄청난 경우의 수를 나타내 준다.[33][34]
4GHz급으로 오버클럭된 서버용 도데카코어[35] CPU 하나가 대국 하나를 검토한다면 초당 $$12\times4^{10}$$[36] 대국을 검토하는 셈인데, 이런 가정 하에서 모든 경우의 수를 계산하려면 CPU에게 약 $$7.8 \times 10^{48}$$초가 필요하다. 전 세계에서 가장 빠르다는 슈퍼컴퓨터의 CPU 수만큼 이어붙여서 어찌어찌 효율 100%를 낸다는 가정 하에 계산을 때린다 쳐도[37] $$7.3 \times 10^{43}$$초, 연도로 따져도 $$1.1 \times 10^{35}$$년이 걸린다. 빅뱅이 시작된 태초부터 지금까지의 시간을 전부 들여서 계산해도 근접은 커녕 시작했는지 티도 안 날 정도다… 고작 몇시간짜리 대국 하나를 가지고 어느 세월에 다 계산한단 말인가? 브루트 포스 가지고는 우주적 스케일이 나와버리는 이런 문제를 해결하기 위해 딥러닝이 도입됐고, CPU가 천 개 넘게 사용됐다고 한들 오히려 굉장히 싸게 먹혔다는 표현이 부족한, 천문학적인 금액이 절감된 수준이라고 판단할 수 있는 수준이다.
게다가 구글에서 공개한 알카노이드 게임 재현을 통한 딥러닝 구현방식을 본다면, 오히려 인위적 조작을 하는게 오히려 더 알파고를 꼬이게 만들 수 있다. 말그대로 이 슈퍼컴퓨터는 원리상으로는 "슈퍼컴이 안에서 끊임없이 보통 바둑을 계속 두는 것" 뿐이다. 뭐 결론적으로 이 많은 경우의 수를 많이 분석했기 때문에 이세돌이 이길 수 없다는 것은 뻔한 결과일지도.
결정적으로, '''알파고가 패배한 대국'''이 나왔다. 만일 정말로 알파고가 브루트 포스 기법으로 대국에서 가능한 모든 수를 탐색하는 것이라면, 알파고가 질 가능성은 0에 수렴한다.[38] 그런데 알파고가 졌다.
알고리즘을 실제로 구현하는 과정에서 빠질 수 없는 과정이 시간복잡도 계산과 계산시간 추정인데, 정보올림피아드에 출전하는 초중고 학생들도 이해하는 내용을 IT 전문 변호사가 간과한 이유는 다소 의문이다. 다만 IT에도 여러 갈래 분야가 있다는 점과, 변호사라면 특히 법정에서 다룰 만한 내용들을 주로 공부하였으리라는 점을 생각하면 전혀 이해 못 할 만한 점은 아니라고 할 수 있다. 물론 자신의 전문 분야도 아니면서 경솔한 발언을 한 것은 명백히 해당 변호사 개인의 문제점이다. 또한 '''IT 전문'''이라는 부분만 강조하며 전문성을 부여하려는 기사들 역시 비판받을 만하다.
동아사이언스에서 이런 음모론 제기에 대한 기사를 내었다. 알파고, 역사와 전통을 자랑하는 음모론에 빠지다 브루트포스를 위한 CPU 개수를 추정하는 계산의 가정 및 결론이 본 문서의 것과 동일한데, 기사에서는 '''누군가''' ~ '''한다고 하더군요'''하는 식으로 출처를 얼버무렸지만 본 문서를 참고했을 가능성이 상당히 높다.
10. 대명사화
상술하다시피 알파고는 바둑에 특화된 딥마인드의 인공지능이지만, 한국에서는 알파고 열풍 이후로 알파고라는 단어를 구글 딥마인드에서 개발한 DQN알고리즘을 사용한 인공지능, 나아가서는 인공지능 자체를 가리키는 대명사처럼 사용하고 있다. 일상생활뿐만 아니라 언론에서도 종종 그렇게 사용되곤 한다. 그래서 알파고가 스타크래프트에 도전한다라는 식으로 잘못 알려져 있기도 했고 본 문서에도 그러한 내용이 기재되어 있었지만 애초에 알파고라는 명칭 자체가 바둑(go)을 의미하는 것이기 때문에 딥마인드에서 개발하고 있는 스타크래프트용 인공지능은 차후 알파고라는 명칭이 아닌 다른 이름으로 공개될 것이다. 본 문서에 기재되어 있던 딥마인드의 스타크래프트용 인공지능에 대한 내용은 알파스타 문서로 이전되었으니 해당 문서를 참고할 것.
11. 영화화: 알파고(영화)
12. 기타
- 일반인들도 알파고를 알사범이나 알구단이라고 부르는 등 의인화하는 경향이 크게 늘었고, 신문기사 등에도 알파고를 마치 인격체처럼 취급하는 논조가 늘었다. 앞으로 인간 지능에 가까운 인공지능체가 등장할 경우에 일반인들의 반응으로 시사하는 바가 있다.
- 서양 사람이 배나 자가용에 곧잘 여성대명사를 사용하는 것처럼, 알파고도 개발자들에게 She, her 등으로 불리며 여성으로 취급된다고 한다. 중계 등에서 He라고 부르는 사람에게 개발진이 She라고 부르라고 정정해 주었다.
- 알파고가 이긴 후 알파가 들어가는 단어들을 이용한 드립들이 뉴스 댓글창에서 유행하기도 했다. 알파문구 드립이라든지 알파부대 출신이라든지…
- 알파고가 연승 행진을 이어가자, 인공지능이 대체할 수 있을 것이라는 전망이 나온 각 전문 분야 종사자들이 불안한 반응을 보이기도 하였다.
- 알파고같은 'AI경제부총리' 나오면, 살림살이 나아질까?
- 판사들은 왜 '이세돌 승리' 간절히 원했을까
- 트라이버튼의 설문 조사에 따르면, 2016년 4월 12일 현재 72.3%의 응답자가 알파고와 같은 인공지능(AI)에 의해 미래에 인간의 직업이 줄어들 것으로 예상하고 있다.
- 언론 브리핑에서 데미스 허사비스 박사가 “딥마인드 내부적으로 파악하고 있는 알파고의 약점이 있지만 이세돌 9단과의 대국이 치러지기 전 시점에서 말씀드리긴 곤란하다.”는 말을 한 적이 있다. 이후 제2국에서 알파고의 단점이 드러났다고 말하였다. 이와 관련해서, 인공지능 관련 전공자들이 해당 제2국 등의 내용을 바탕으로 알파고의 약점(허점)으로 보이는 것을 지적하였다. 결국, 제4국에서 이세돌은 알파고의 약점을 찔러 승리하는 데 성공했다.
- 만화 히카루의 바둑에서 알파고의 미래를 예언한 듯한 장면이 있다. 고스트바둑왕이 갓갓갓인 이유애니.
- 알파고와 같은 바둑 프로그램들은 Zen, Crazystone, 돌바람 등이 있지만 기력적으로는 아직 상당히 모자라다. 아직까지 프로들에게 3점으로 패하는 수준. 알파고 출현 후 세계 각국에서 알파고에 맞설 인공지능 바둑 프로그램이 하나 이상은 개발되고 있는 것으로 보인다. 물론 알파고만큼 세간의 집중을 받은 건 아직 없지만.
- 대국 이후 많은 사람들이 알파고를 극찬했지만 스튜어트 러셀 UC 버클리대학 교수는 알파고가 경기를 운영한 방식이 과거 딥 블루가 체스를 둘 때와 거의 비슷해서 AI 관점에서 보면 조금 실망스럽다는 평가를 내렸다.#
- 러시아에서 열린 EGC2016(유럽 바둑 대회)에서 알파고에 관한 프레젠테이션이 판 후이에 의해 진행되었다. 판 후이는 몇 주후에 딥마인드에서 홈페이지를 만들어서 알파고와 이세돌의 대국, 그리고 알파고 끼리의 자체 대국에 대한 기보를 올릴 예정이며, 복기는 구리 九단과 저우루이양 九단의 도움을 받았다고 이야기했다. 또한 판후이는 알파고가 이세돌과의 대국 동안 생각했던 예상도도 소개했다. # 참고로 영상에서 판후이가 설명하는 알파고의 대응들은 지금까지 알파고가 뒷맛을 생각하지 않고 둔다는 얘기들과는 달리 단지 최상의 수를 두어가는 과정으로 설명했다. 알파고의 예상에 따르면 악수는 이세돌九단 만이 두고있었다는 설명이 된다. 하지만 사실 그건 전적으로 무의미한 설명이다. 알파고가 자기가 최선이라고 판단한 수를 두는 것은 당연하다. 알파고가 뒷맛을 고려하지 않는다는 것은 알파고가 뒷맛을 고려하지 않는 수를 '최선의 수'를 찾는 판단에서 선호한다는 말과 같다. 그런 지적에 대해서 "알파고는 단지 최선의 수를 둔다"는 말이 과연 반론으로서 의미가 있을까? 더구나 알파고가 승리한 대국이라고 해도 알파고가 계산한 승리 확률이 낮아진 경우는 여러 번 있었다. (그 점은 알파고끼리의 자체 대국에서도 마찬가지였다.) 이는 알파고의 판단으로도 알파고가 둔 수가 항상 최선의 결과를 가져온 것은 아니라는 점을 보여준다.
- 판후이와 아자황은 강연을 통해 계속해서 맛보기로 예상도를 보여주고 있다. 프로기사들도 참고해야 할 정도의 예상도가 있으니 강력추천은 덤.US GO CONGRESS에서의 강연, 며칠 수 또 다른 미국 Go CONGRESS에서의 강연. 이 프레젠테이션에서 판후이는 구리 九단과 저우루이양 九단 뿐만아니라, 창하오 九단을 비롯한 많은 중국 기사들이 복기에 참여했다고 얘기했다.
- 알파고의 등장으로 바둑기사들의 미래가 무너지고 바둑의 인기가 사그라들거란 우려와는 달리, 이세돌과의 대결을 전세계에서 3억명이 넘는 사람들이 경기를 지켜보고 오히려 대결 이후 바둑판의 판매량이 10배 이상 증가하였다. 또 알파고는 기존에 고착화되어있던 바둑기사들의 기보와는 전혀 다른 수를 둠으로써 새로운 기보를 연구하는 촉매제로 작용하고 있다. 선두효과로 그만큼 바둑기사들의 역량 최대치가 늘어나는 셈.
- 아마추어 관심은 늘어났는데 프로 후원기전은 가면 갈 수록 없어지고 있다. 아예 알파고 때문에 인간 바둑에 대한 관심도가 떨어져서, 안 그래도 하나 둘 없어지던 프로바둑기전에 점차 치명타가 발생하는 중이다. 이미 한국에서 남자 종합기전은 GS칼텍스배, KBS바둑왕전 두개밖에 안 남았는데...
- 알파고가 빅 데이터, 인공지능의 대명사로 굳어진 탓인지 2017년 말부터 디시인사이드를 비롯한 커뮤니티 사이트에서 성행하는 일명 '빅데이터' 낚시 짤방의 원본으로 오인받는 경우가 종종 있는데, 해당 문서에도 나와 있듯 해당 짤방과 알파고는 서로 관련이 없다.
13. 관련 인물
- 딥마인드
- 데미스 허사비스: 구글 딥마인드 최고경영자(CEO). 그의 트위터
- 아자 황(Aja Huang): 구글 딥마인드 연구원이자, 알파고의 핵심 개발자. 손이 없는 알파고 대신 바둑알을 놓는 인물.인류 최초의 배신자
- 바둑 기사
14. 함께 보기
(영어)
(영어)
디시인사이드 알파고 갤러리
릴라 제로, 엘프고, 미니고 : 이들은 딥마인드가 네이처에 낸 논문을 참고하여 알파고 제로를 재구현하는 것이 목적인 오픈 소스 바둑 인공지능 프로젝트들이다.
15. 관련 문서
[1] 공식 유튜브 캡션 한국어 자막을 지원하므로, 자막이 안 보인다면 유튜브 플레이어 하단에 자막 버튼을 클릭[2] 이러한 이유로 일본 언론 등에서는 알파고를 アルファ碁라고 표기한다.[3] 바둑을 뜻하는 한자는 碁, 棋, 棊 세 가지가 있다. 모두 '바둑 기'. 일본에선 碁를, 한국과 중국에선 棋를 주로 사용한다.[4] 참고로 이 승률은 1개의 컴퓨터를 사용하는 싱글 알파고가 따낸 승률이다.[5] 실제 핵심 기술인 머신 러닝 알고리즘은 훨씬 더 오래 개발했다.[6] 물론 이것도 멀티CPU 시스템이긴 하다. 48코어.[7] 이세돌 9단등 일부는 이를 특정 집만큼만 이기도록 세팅된 것 아닌가하는 추측을 했지만, 사실 이기는 것이 유일한 목표인 알파고 입장에선 쉽게 둬서 변수를 줄이는 것이 승률이 더 높아지기 때문에 합리적인 선택이다. 여기서부턴 어떻게 두든지 이미 승리가 확실하다는 계산이 섰다는 소리이기도 하다.[8] 타이젬 바둑에서 Magister(P)이란 이름으로 잠시 활동. 60게임 이후 계정만 덩그러니 남아있다.[9] 입단 후 유럽으로 건너가 바둑 보급에 힘쓰고 있다.[10] 판 후이와 10월 5~9일, 하루 한 판씩 겨뤘다.[11] 서양은 체스처럼 흑을 쥔 사람이 위, 백을 쥔 사람이 아래로 가게 기보#s-1를 적기 때문에 동아시아와는 반대로 흑1이 좌하귀에 있다. 총보만 있는 곳, 박승철 七단의 총평[12] 프로 단수는 규정상 한자로 표기(한국기원 프로바둑기사 규정)한다. 다만 한국기원 기준 아마추어는 7단까지밖에 없어 혼동의 여지는 없다. 전통 내지는 예의 문제는 될 수도 있겠다.[13] 김성룡 九단 - 농심신라면배 최종국 이세돌 vs 커제 해설 중.[14] 구글 딥마인드 챌린지 매치까지 썼던 중국식 계가법이 아니라, 두 곳에서 모두 덤 6집 반인 한국식 계가법으로 바둑을 뒀다.[15] 사실 50승 직후에 1무가 있긴 했는데 별게 아니고 접속불안정으로 튕겨서라고 한다.[16] 요즘 맞바둑은 덤이 있어서 흉내바둑은 백이 쓴다. 커제 九단이 알파고와 다시 겨룬다면 백을 잡았을 때 흉내바둑을 볼 수도 있다.[17] 커제는 3번째 패배뒤 한동안 대국실을 나오지 않아 중계하던 사람이 농담삼아서 문잠가놓고 울고 있는거 아니냐는 말을 했었는데 패배 후 생애 처음으로 병원에 입원했다고 한다.[A] A B 돌을 놓는 아자 황의 마우스미스가 1번 있었다.[18] 판후이 二단한테 5승, 이세돌 九단한테 4승 1패, 인터넷에서 60승, 마지막으로 커제 九단한테 3승, 상담기 1승.[19] 즉, 커제와의 경기를 하기도 전에 이미 이를 능가하는 버전을 개발했다는 소리이다.[20] 알파고의 초기모델명으로 2017년에 개봉한 알파고 영화에서 벽돌깨기를 어떻게 깼는가를 소개하는 장면에서 언급된다.[21] 벽돌깨기를 소개하는 장면은 18:43초 부터[22] 트리 검색의 특징상 이런 현상이 나타나기 쉽다. 패가 생기면 계산해야 하는 수의 개수가 폭발적으로 증가하고 패배확률이 높아진다.[23] 아마도 덤#S-2 때문에 그런 듯하다. 361(중국식 계가법은 살아 있는 돌도 집으로 세기 때문에 흑집과 백집을 더하면 반드시 19²=361이다)을 100%, 딱 반인 180.5를 50%라 치면 덤 3¾子(덤 7집반을 중국식으로는 이렇게 쓴다)는 (3¾÷361)×100%≒1.04%인데, '알파고는 흑 승률 48%, 백 승률 52%로 시작한다'는 설명이 사실이라면 실제 중국식 계가법으로 둔 바둑의 통계 결과와 비슷하다.[24] 2017년 알파고 제로 논문에서는 이세돌전 패배 등이 반영된 결과인지 3739점이라고 수정되었다.[25] 참고로 승률 계산식은 1/1+10^(Ra-Rb/400)이다. Ra에 높은 쪽 레이팅, Rb에 낮은 쪽 레이팅을 넣으면 된다.[26] 이를 오버피팅(과적화)라고 하며 머신러닝에서 흔히 생기는 문제이다.[27] 다만 이러한 단순비교는 정확하지 않을 수 있다. 딥러닝에 많이 쓰이는 벡터 및 행렬연산에 좀 더 최적화된 TPU와 일반 GPU와의 단순 플롭스 수치의 비교만으로 온전히 알기 어려운 측면이 있다. 즉, 같은 플롭스의 GPU보다 인공지능에 한하여 훨씬 효과적일 수 있는것.[28] 단, PFLOPS는 단순히 계산량을 뜻하며 범용 슈퍼컴퓨터와 1:1로 비교하는 것은 차이가 있다. 그래픽카드의 연산성능이 CPU보다 우월하다 해서 그래픽카드가 CPU보다 우월하지 않은 것과 같은 이유. TPU는 인공신경망 구성에만 사용할 수 있을 뿐 다른 일에는 사용할 수 없다.[29] 2016 TCEC 우승 인공지능.[30] 체스는 백이 선이며, 기물이 적어지면 체크메이트를 할 수 없는 게임 특성상 무승부가 잦게 나온다.[31] 2017 CSA 우승 인공지능[32] O와 X를 3x3 표에다 그어 삼목을 만드는 게임. 총 경우의 수는 19,683가지. 인간이 모두 고려할 만한 경우의 수는 아니지만 컴퓨터로는 계산해볼 만한 수다.[33] 실제로는 바둑의 초반, 초중반, 중반 단계까지는 매 수마다 평균 5개 정도, 어떤 경우에는 10개 정도의 착점이 고려된다고 보면 된다.[34] 블로터 기사에 따르면 $$10^{170}$$[35] 12코어[36] 12,582,912[37] 참고로 슈퍼컴퓨터 항목을 보면 알겠지만, 최고 성능의 슈퍼컴퓨터는 약 1060만개 코어에 '''1.4GHz''' 클럭이다. 실제로 4.0클럭 수준의 코어가 1000만개는 고사하고 1000개씩이라도 덕지덕지 붙어있으면 사용은 커녕 작동 가능 여부나 걱정해야 할 판이다.[38] 이 경우 이세돌이 이기려면 반드시 필승법을 써야한다. 만약 모든 경우의 수를 다 따져보았을 때 백이 무조건 이기는 필승법이 있다면, 그 수순대로 이세돌이 두어야만 알파고를 이길 수 있다.[39] 사실 이건 18세기에 유명했던 튀르크인(The Turk)이라는 기계의 사례에서 비롯된 것이다. 튀르크인은 체스를 두는 기계라고 하여 유명하였는데, 그 정체는 사실 기계 속에 몸집 작은 사람이 숨어 있는 것이었다.