알파고와 이세돌의 차이

인공지능이 화제다. 물론 알파고 덕분이다. 구글의 딥마인드에서 개발한 인공지능 알파고(AlphaGo)는 기계가 정복할 수 없을 거라고 여겼던 바둑에서 인간 최고수인 이세돌을 연이어 격파했다. 알파고가 유럽 챔피언 판 후이를 5:0으로 이겼을 때 많은 이들이 놀란 건 사실이지만, 그래도 대다수 사람들은 10여 년간 바둑계를 호령했던 이세돌을 이기기는 어려울 것이라고 내다봤다. 한 판만 이겨도 알파고에 위로의 박수를 쳐줄 분위기였다. 하지만 이제 분위기는 정반대다. 이제는 이세돌이 한 판이라도 이기면 박수를 칠 분위기다.

많은 사람이 인공지능이 바둑을 정복할 수 없다고 본 이유는 간단하다. 경우의 수가 너무 많기 때문이다. 361개의 점에 흰 돌과 검은 돌을 번갈아가며 두는 바둑은 거의 무한한 경우의 수가 존재한다. 이러한 특성 때문에 최고수 바둑 기사는 전체 바둑판의 흐름을 볼 줄 아는 능력을 갖추고 있어야 하며, 바둑에 대한 근본적인 이해에 기반을 둔 직관적 선택을 할 줄 알아야 한다. 기계적으로 판단해서는 바둑을 잘 둘 수 없다. 바둑 해설에서 “뒷맛이 나쁘다” 혹은 “기분이 안 좋다”와 같은 추상적인 말이 많이 나오는 것도 바로 이 때문이다.

딥마인드 개발팀은 알파고를 두 단계의 과정으로 학습시켰다. 먼저 알파고는 기존 프로 기사들의 바둑 기보들을 섭렵했다. 이를 통해 알파고는 바둑판을 보고 이런 상황에서 바둑 고수들이 어디에 다음 수를 둘지 꽤 높은 확률로 예측할 수 있게 되었다. 이 정도도 훌륭하기는 하지만, 이 수준으로 바둑 최고수에게 승리를 거두는 건 불가능하다. 그래 봤자 바둑 기사들의 수를 모방하는 연습생 수준에 불과하기 때문이다.

두 번째 단계는 강화 학습(reinforcement learning)이라 불리는 일련의 과정들이다. 바둑의 기초를 학습한 알파고는 또 다른 알파고와 대국을 하기 시작한다. 처음에 알파고는 앞서 학습한 기보에 따라 바둑 기사들이 놓을 확률이 가장 높은 지점에만 착수했을 것이다. 그러나 알파고 끼리 대국의 승패가 최종적으로 결정되고 나면, 패배한 알파고는 그 결과를 토대로 자신이 뒀던 모든 수를 의심해본다. 패배를 통해 자신이 두었던 수 중 어떤 수는 최적의 선택이 아니었음을 학습하게 되는 것이다.

물론 정확히 어떤 수가 잘못된 수이고, 어떻게 두었으면 더 좋았을지 한 판으로는 알 수 없다. 알파고는 이러한 혼자만의 대국을 수천만 번 반복하면서 각 대국의 승패에 따라 끊임없이 자신이 두었던 수의 가치를 재평가했다. 이 과정을 겪고 나면 대부분은 바둑 기사들이 두는 자리가 가장 좋은 수였음이 증명되겠지만, 어떤 경우에는 승률을 더 높여주는 다른 수가 있다는 사실을 발견하게 된다. 바로 이 지점이 알파고의 핵심이다. 드디어 바둑 기사들의 수를 모방하는 것을 넘어서 종종 그보다 더 뛰어난 수를 둘 수 있게 되는 것이다. 알파고와 이세돌의 대국에서 볼 수 있듯이, 알파고가 대부분은 바둑 기사들이 둘 법한 자리에 돌을 두지만 가끔 도저히 이해할 수 없는 곳에 착점하는 것은 바로 이 과정의 산물이다.

어떻게 보면 알파고의 알고리즘은 별로 대단할 게 없다. 알파고가 바둑을 배운 방식이 사람이 바둑을 배우는 방식과 똑같기 때문이다. 사람도 처음에는 책을 통해 바둑의 정석과 이론을 배운다. 하지만 이것만으로는 바둑을 잘 둘 수 없다. 직접 바둑을 두고 수많은 패배를 경험하며 경험을 쌓아야 비로소 실력이 늘기 시작한다. 알파고도 그렇게 바둑을 배웠다. 처음에는 바둑 기사들의 수를 보면서 기본을 배우고, 그다음에는 직접 바둑을 두면서 더 좋은 수를 찾아갔다. 다만 알파고는 시간과 에너지에 구애를 받지 않기 때문에 엄청나게 많은 수의 바둑을 둘 수 있었을 뿐이다. 그렇게 보면 알파고와 이세돌의 차이는 그저 경험의 차이다. 인류 역사상 모든 바둑을 합친 것보다 더 많은 바둑을 둬 본 경험의 차이.

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.