알파폴드
1. 개요
단백질 접힘을 실험적으로 알아내기 위해서는 엑스선 결정학[1] 의 도움을 빌리거나 극저온 현미경[2] 등을 활용하여야 하지만 이 방법들로 단백질 접힘구조를 밝히려면 비용이 많이 들며 소요되는 시간 역시 길어, 짧게는 몇 개월에서 길게는 몇 년이 걸리기도 한다. 어떤 단백질 구조는 십 수년이 걸려도 실마리를 잡지 못하는 경우도 있다. 알파폴드는 이런 단백질 접힘 연구에서의 난점을 돌파하기 위해 딥러닝 알고리즘을 활용하여 개발된 것이다.
2. 알파폴드1
2018년 12월 멕시코 칸쿤에서 열린 ‘단백질 구조 예측 학술대회(CASP)’에 참여하였다.
CASP은 미국 메릴랜드대의 세포생물학 및 분자유전학과 교수인 존 몰트의 주도로 1994년부터 시작해 2년마다 열리는 단백질 구조 예측 대회이다.
CASP 조직위원회는 대회가 열리는 해 여름부터 매일 1~2개씩 아미노산 서열을 공개해 대회가 열리기 전까지 총 100개 정도의 문제를 낸다. 자동화 서버를 이용하는 참가자는 3일, 직접 예측하는 참가자는 2주 안에 단백질 구조를 예측해 제출해야 한다. 조직위원회는 10월 말쯤 참가자가 제출한 예측 정확도를 평가해 대회 기간 중 결과를 발표한다. 컴퓨터 예측이 90점 이상을 기록하면 실험과 대등한 결과로 간주했다.
당시 데미스 허사비스 CEO는 "바둑 AI인 알파고 알고리즘을 개발하는 것과는 차원이 다른 시도"라며 딥마인드의 연구결과가 알파고와는 달리 실용적인 목적에 적용되는 사례라는 데 큰 무게를 두는 듯한 발언을 하였다.
처음 개발될 당시에는 단백질 구조를 예측하는데 약 2주일정도가 소요되었으나 이 대회에 출전할 당시에는 불과 2~3시간만에 일련의 작업을 해내는 것으로 알려졌다.
결과적으로 대회에 참가한 전세계 98개의 연구그룹 중에서 압도적인 1위를 달성했다. 바로 직전에 열린 2016년 CASP12에서 최고 난이도 과제의 1등은 40점에 그쳤으며, 2018년 첫 출전한 CASP13의 알파폴드1은 이 분야에서 60점을 기록했다. 이 기록은 그 이전에 열린 CASP에서는 한 번도 달성된 적 없는 점수이다.
3. 알파폴드2
2020년 초 중국에서 코로나19의 유전정보를 공개하자마자 단백질 구조를 예측하는 데 성공했다고 발표했다. 이 버전이 CASP14에 참가한 알파폴드2와 같은 버전인지 아닌지에 대해서는 밝혀진 바가 없으나 18년에 선보인 알파폴드1보다는 개선된 알고리즘을 사용한 것으로 추측된다.
아무튼 딥마인드는 지난 번 CASP출전 때보다 개선된 알파폴드2를 가지고 다시 한 번 대회에 참가해 주어진 과제의 3분의 2에서 인간 과학자 수준의 정확도를 보였다. 정확하게는, 과학자들이 실험으로 사전에 밝힌 것과 90% 이상 일치하는 결과를 얻은 것이다.
이것은 지난 몇 십년간 한 번도 달성된 바 없는 점수일 뿐 아니라 CASP13에서 알파폴드1이 달성한 점수보다도 훨씬 높은 것으로서 일각에서는 "알파폴드2 쇼크"로 지칭할 정도로 큰 충격을 가져왔다.
이것은 지난 몇 십년간 한 번도 달성된 바 없는 점수일 뿐 아니라 CASP13에서 알파폴드1이 달성한 점수보다도 훨씬 높은 것으로서 일각에서는 "알파폴드2 쇼크"로 지칭할 정도로 큰 충격을 가져왔다.
그 과정에서 알파폴드2는 지난 10년동안 독일 막스 플랑크 연구소가 알아내려고 시도했지만 번번히 실패했던 박테리아 단백질 구조를 단 30분만에 알아내는 기염을 토하기도 하였다. 막스 플랑크 연구소에서 해당 연구를 진행했던 안드레이 루파스 박사는 영국 과학매체 뉴사이언티스트 인터뷰에서 “앞으로 단백질 구조 분석은 컴퓨터에 전적으로 의존하게 될 것”이라며“의학의 운명을 완전히 바꿀 수 있다”고 말했다.
알파폴드2는 알파폴드1과 비교해서 알고리즘 측면에서 몇가지 변화가 있었다. CASP의 평가 위원 중 한 명인 석차옥 서울대 화학과 교수는이와 관련해 “알파폴드2는 알파폴드1 보다 많은 단백질 구조 데이터를 학습했고, 딥러닝 방식도 다르다”며 “딥마인드가 미리 제출한 3쪽 분량의 초록을 토대로 추측해 보면 알파폴드1이 아미노산 2개의 상호작용에 주목한 반면 알파폴드2는 좀 더 많은 아미노산의 상호작용에 초점을 맞춘 것 같다"고 설명했다.
물론 알파폴드2가 단백질 구조예측 문제를 완전히 해결한 것은 아니다. 알파폴드2는 작은 단백질과 도메인에서만 작동하며 많은 구조생물학자들이 현재 집중하고 있는 연구 주제와는 다소 차이가 있다. 실제 살아있는 유기체의 세계에서 발견되는 단백질 배열들은 CASP에서 제시되는 것들 보다 훨씬 더 풍부하고 다양하며 복잡하기 때문에, 이에 직면했을 때 알파폴드2가 얼마나 잘 작동할지 아직은 확신할 수 없는 것.
실제로 일부 구조생물학자들은 지나친 확대해석이나 과잉보도를 자제할 것을 촉구하기도 했다. 그러나 AI분야와 구조생물학분야를 막론하고 알파폴드2가 해당 연구 분야에서 대단한 혁신을 가져온 것은 인정하는 분위기. 적어도 알파폴드2 이후에 나오는 버전들이 분자생물학 분야에 큰 도약을 가져올 것은 분명하다.
실제로 일부 구조생물학자들은 지나친 확대해석이나 과잉보도를 자제할 것을 촉구하기도 했다. 그러나 AI분야와 구조생물학분야를 막론하고 알파폴드2가 해당 연구 분야에서 대단한 혁신을 가져온 것은 인정하는 분위기. 적어도 알파폴드2 이후에 나오는 버전들이 분자생물학 분야에 큰 도약을 가져올 것은 분명하다.
특히나 인상적인 것은 불과 2년 전에 개발된 알파폴드1에 비교해서도 알파폴드2가 구조 예측에 있어서 훨씬 능률이 뛰어나다는 점이다. 관련 학계가 술렁인 까닭에는 알파폴드2 자체의 성능외에도 이토록 빠른 알파폴드 알고리즘의 발전 속도 또한 한 몫한 것으로 보인다.
적당한 시점에 개발에서 손을 뗀 알파고와는 달리 딥마인드 측에서도 계속 차기 버전을 계속 내놓으며 개선을 도모할 가능성이 점쳐진다.
적당한 시점에 개발에서 손을 뗀 알파고와는 달리 딥마인드 측에서도 계속 차기 버전을 계속 내놓으며 개선을 도모할 가능성이 점쳐진다.