Го-сингулярность

Alexey Ezhikov
Mar 12, 2016 · 15 min read

Почему победа AlphaGo над Ли Седолем важнее победы Deep Blue над Гарри Каспаровым, и как это повлияет на обычных людей

Короткая ссылка для распространения: http://bit.ly/go-singularity

Два человека сидели друг напротив друга за чистой доской для игры Го. 12 марта 2016 года в 13:00 по местному Сеульскому времени должна была начаться третья партия в серии из пяти игр. Серии, которой было предназначено перевернуть жизни десятков миллионов игроков в Го.

Чаша с чёрными камнями на ближайшие четыре часа принадлежала Ли Седолю, одному из сильнейших профессиональных игроков мира. Белые камни ставил на доску Аджа Хуан, обладатель любительского 6 дана и один из разработчиков компьютерной программы AlphaGo. Именно она решала, какой ход сделать за белых.

Через четыре часа и тринадцать минут после начала матча взволнованный Ли Седоль собирал камни с доски, объявив третье подряд поражение от компьютера, и, тем самым, поражение в пятиматчевой серии.

Человек собирает камни. :(

Это сражение чем-то напоминало бой Оберина Мартелла и Григора Клигана в сериале «Игра Престолов». Ли Седоль в самом начале партии навязал противнику сложную борьбу (корейцы любят такой стиль), ища слабости программы, но она отвечала уверенно и красиво. В конце партии, когда у человека оставалось мало времени для раздумий, AlphaGo продемонстрировала мощную игру в ко-борьбе (форме тактической борьбы, где раньше компьютеры проигрывали людям «в одну калитку») и буквально сокрушила Ли Седоля.

Демис Хассабис, руководитель рабочей группы AlphaGo, казался растерянным на послематчевой пресс-конференции. Он начал свою речь словами «To be honest, we’re a bit stunned and speechless» («Честно говоря, мы слегка потрясены и потеряли дар речи»).

Похоже, у искусственного Го-разума не осталось слабых мест, и человечество уступило машине в следующей великой логической игре после шахмат.

Многие любители Го испытали потрясение 12 марта: привычный мир рухнул. Многие из тех, кто не играет в Го, не считают это событие значимым. Подумаешь: шашки, шахматы, Го… Какая разница? Прочитав статью до конца, вы поймёте, почему разница есть, почему мир для игроков Го не рухнул, и почему 12 марта мы сделали безвозвратный шаг в сингулярность.

Для этого нам придётся немного окунуться в историю игры.

Го как игра

Го — одна из древнейших игр, доживших до современности. Точных данных о её зарождении нет. Древнейшие игровые артефакты, обнаруженные в Китае, датируют началом нашей эры. Можно точно сказать, что игра зародилась в Китае (там она называется «вейци»), распространилась по всей Азии, и расцвела в Японии приблизительно в XVI-XVII веках.

В начале XXI века Го продолжает быть популярной в Азии. Десятки миллионов японцев, китайцев и корейцев регулярно играют в Го.

Фреска из пещеры Юйлинь 32 (провинция Ганьсу), эпоха Пяти династий (907–979 гг. н.э.)

Правила Го сравнительно просты, проще шахматных. Игроки поочерёдно выставляют камни чёрного и белого цветов на перекрестья линий доски (пункты). Задача каждого игрока — к концу партии окружить наибольшую территорию. Есть правила, в каких случаях камни могут быть сняты с доски («съедены»), а также как поступать в спорных ситуациях, когда игра может «зациклиться» (правило ко). Начинающий может сыграть первую партию на учебной доске (9×9 линий) спустя полчаса освоения правил.

Типичный финал партии в Го. Wired.com

Многие считают Го сложнее других игр с открытой информацией (включая шахматы), несмотря на простоту правил. Причина — высочайшая вариативность игры, особенно в начале партии. Каждый следующий ход может быть совершён в сотни пунктов. Оценивают, что за время существования Го не было сыграно двух одинаковых партий, а количество возможных партий превышает количество атомов во Вселенной.

Партия в Го делится на три этапа (начало, середина и завершение), аналогично шахматным дебюту, миттельшпилю и эндшпилю. Примечательно, что на каждом из этих этапов игроки борются на разных уровнях абстракции.

В начале партии (оно называется фусэки) важен баланс между заявкой на влияние на доске и заявкой на территорию. Если играть слишком осторожно и сразу ограничивать территорию в углах доски, соперник сможет усилиться и к концу партии «заработать» гораздо больше в центре доски и на её сторонах. Если же пытаться играть на влияние, то позднее противник может вторгнуться в зону влияния и «выжить» там, отобрав территорию к концу партии.

В фусэки сложно «просчитывать» ходы (кроме розыгрышей в углах), ходы совершаются на основании предыдущего опыта игрока и его «видения доски».

Пример фусэки. Майкл Редмонд комментирует второй матч серии. Ли Седоль играет белыми.

В середине игры (на этапе тюбан) на доске определён баланс влияния, и игроки борются за силу и слабость групп камней. Определяется, на какую территорию претендует каждый из игроков, какие группы камней «выживут». Также становятся критически важными формы групп.

Точная оценка территорий, на которые претендуют игроки, пока ещё невозможна.

Пример тюбан. Второй матч серии.

В конце игры (на этапе ёсэ или йосэ), если баланс в игре сохранился, и ни один игрок не потерял слишком большую группу или часть территории, идёт борьба за конкретный размер территорий (очки).

Пример ёсэ. Второй матч серии.

Сильные игроки нередко доигрывают ёсэ так, что у них оказывается одинаковое количество очков. Но в Го нет ничьих, потому что игрок белыми камнями имеет компенсацию за то, что он ходит вторым (коми), равную 6,5 или 7,5 очков, в зависимости от правил. Размер коми определён статистически на основании анализа большого количества партий. Половинка очка исключает ничьи.

Одно из правил хорошего тона в Го — сдаваться и не доигрывать партию, если видишь, что её уже не спасти. Профессиональные игроки сдавались даже с «неотыгрываемой» разницей в пол-очка. Если в тюбан «умерла» большая группа камней, ёсэ часто не отыгрывают, а сразу сдаются.

Мы подошли ко второму важному отличию Го от других игр, кроме воспринимаемой сложности и абстрактности. Го — не просто игра. Это культурный феномен, превосходящий, например, футбол.

Го как культура

Процитируем текст из Википедии:

Японцы известны своей способностью доводить вещи и идеи до эстетического совершенства. Игра Го стала одним из четырёх искусств, владение которыми обязательно для аристократа — наравне с каллиграфией, стихосложением и музицированием. В игре и вокруг игры развился сложный этикет.

Мастер учит гейш играть в Го, конец XIX века. okinawa-soba

Вторая причина расцвета Го, помимо перфекционизма японцев, заключается в том, что абстрактные концепции Го работают по аналогии в обычной жизни лучше, чем концепции других игр.

Игра Го стала моделью войны, моделью разделения рынка, моделью для политических манёвров для целой части света почти на тысячелетие. Поговорки, принципы, подходы Го применяются людьми для принятия решений за пределами игровой доски. Изучение игры развивает системное мышление.

Сегодня в Азии не просто десятки миллионов людей играют в Го. Профессиональные игроки зарабатывают сотни тысяч долларов США в турнирах, организованных крупнейшими азиатскими корпорациями уровня Samsung, LG и Fujitsu. Существуют спортивные телеканалы, посвящённые только Го. Родители отдают шестилетних детей в школы, где тех учат только играть в Го. Есть специализированные на игре Го высшие учебные заведения (представьте себе «Российский Футбольный Университет», к примеру).

За пределами Азии игра Го не так популярна, игроков меньше, и в среднем они слабее.

Сила игрока в Го

Если один игрок чаще проигрывает другому игроку, он слабее. Поражение в одной партии ничего не доказывает. И даже в двух или в трёх. Поэтому пока что трудно объективно сравнить силу игры AlphaGo и человека.

Традиционная максимальная фора в девять камней. Слабый играет чёрными, сильный игрок делает первый ход белыми. Sensei’s Library

Благодаря тому, что результат игры может быть оценен не только бинарно («победа — поражение»), но и в разнице очков, в Го легко выстраивается чёткая градация уровней силы игры. Начиная с новичков («20 кю», «19 кю» и далее возрастающей до «1 кю»), продолжая «середнячками»-любителями («1 дан», «2 дан», … , «6 дан») и заканчивая профессионалами («1 про-дан», «2 про-дан», … , «9 про-дан»). Разница в один уровень позволяет играть примерно на равных с форой в один дополнительный камень на доске.

Сила игроков оказывается легко сравнима при условии, что многие играют много партий со многими. Когда накапливается статистика, выясняется, что количество игроков в Го распределяется по силе примерно вот так, где по оси X — сила игры от слабых к сильным, а по оси Y — количество игроков. Что тоже логично: новичков много, супер-профессионалов (к которым относится и Ли Седоль, 9 про-дан) — мало.

Что же делает игрока сильным? Чем Ли Седоль отличается от новичка?

Честно говоря, точно мы не знаем. Гарантированно влияют:

  • знание абстрактных концепций игры и связей между ними;
  • опыт, количество сыгранных и просмотренных партий, решённых задач;
  • интуиция (что бы это ни было) и умение видеть доску в целом.

Из-за того, что просчитать наперёд длинные последовательности ходов невозможно, благодаря этим способностям профессионалы совершают ходы, которые новичок не в состоянии увидеть. А до недавнего времени не в состоянии были увидеть и компьютерные программы.

AlphaGo выходит на арену

До начала 2010-х годов компьютерные программы играли не сильнее первого любительского дана. К этому времени человечество уже 10 лет как было повержено алгоритмами в шахматах. Игроки в Го были преисполнены снобизма и считали свою игру невероятно сложной для кремниевого разума.

Это было справедливо, потому что всё, что умели компьютеры — перебирать варианты ходов («я сюда — он сюда — я сюда — он сюда»), отбрасывая заведомо неудачные варианты. Количество «веток ходов» в Го, как мы уже говорили, больше количества атомов во Вселенной — особо не переберёшь.

Более того, в шахматах уже отыграны все дебюты, что помогает сократить длину перебора, а в Го количество вариаций в начале партий (фусэки) также ошеломительно велико, причём постоянно появляются новые идеи и ходы.

Сильнейшие программы эпохи до AlphaGo использовали вероятностные методы Монте-Карло: пытались просчитать наперёд как можно больше веток ходов, «бросая монетку» каждый раз.

Создатели AlphaGo объединили самые успешные подходы, накопленные в индустрии: нейронные сети глубокого обучения, генетические алгоритмы (немного отличающиеся копии AlphaGo играли сами с собой и отбирались лучшие) и методы Монте-Карло.

Здесь также процитируем Александра Ершова, автора статьи.

Тот случай, когда нейросеть пытается увидеть «собаковость». The Telegraph

На «вход» в AlphaGo загрузили полторы сотни тысяч партий (в статье Wired пишут о 30 миллионах человеческих ходов), в верхних слоях нейросети образовались некие абстрактные соображения «сбалансированности игровой доски», а потом AlphaGo заставили играть саму с собой, чтобы развить эти соображения.

Итак, к своей первой серии игр с европейским чемпионом китайского происхождения Фань Хуем нейросеть AlphaGo обладала следующим набором характеристик:

  • она была обучена на огромном количестве ранее сыгранных человеком партий (опыт + память?);
  • она сыграла кучу партий со своими копиями, отбраковав слабые копии (опыт);
  • она накопила в себе абстрактные концепции относительно состояния игры на доске в верхних слоях нейросети.

Принципиальное отличие от ситуации в шахматах нарисовалось со всей очевидностью.

Бороться с Ли Седолем вышел не программный код. Казалось, что с ним борется существо, обладающее накопленной памятью, способностью к прогнозированию игровой ситуации и опытом победы в десяти миллионах матчей против таких же существ, не прошедших эволюционного отбора.

Фронтир человечности

Вообще говоря, AlphaGo — не что-то суперновое или сверхъестественное. Благодаря похожим технологиям вы получаете выдачу на поисковый запрос в Яндексе. Сайты ранжируются благодаря машинному обучению, основанному на оценках живых людей (асессоров).

Следующий проект IBM после Deep Blue, Watson, обыгрывает людей в передаче «Кто хочет стать миллионером?» и учится отвечать на запросы на естественном языке. Сири, Кортана и другие «персональные голосовые помощники» в смартфонах также используют похожие или смежные технологии.

Но именно AlphaGo попало, наконец, в самую страшную мякотку.

Автоматическое распознавание лиц друзей на фотографиях Facebook не пугает нас, потому что обычный человек не видит за этим «идей», «мыслей» или «мышления».

Комментаторы серии игр AlphaGo и Ли Седоля одушевляли нейросеть. Майкл Редмонд (9 про-дан) называл программу «he» («он»), а не «it» («оно»). Александр Динерштейн (3 про-дан) постоянно говорил о планах и намерениях AlphaGo относительно развития партии.

С этим согласятся все, кто смотрел игры и немного знает Го: AlphaGo играло как очень сильный человек, то есть прошло тест Тьюринга! Если AlphaGo запустить на игровой Го-сервер KGS, никто не сможет определить, что играет не с человеком.

В эргономике и робототехнике есть наблюдение, которое назвали «зловещей долиной». Робот или существо, очень похожее на человека, но отличающееся от человека, вызывает страх или отвращение. Этот эффект с удовольствием используют в фильмах ужасов.

Типичное лицо, попадающее в «зловещую долину».

Мы столкнулись с «меметической зловещей долиной». «Существо», явно имеющее какие-то идеи, обыгрывающее человека в игре, являющейся неотъемлемой частью его культуры, человеком явно не является.

Попробуем разобраться, что за отличия вызывают в нас эти чувства, и широк ли фронтир, разделяющий Ли Седоля и AlphaGo. Начнём с того, что Ли Седоль — живой человек из плоти и крови.

Эволюция идей

99% человеческих генов совпадают с генами шимпанзе, а с бананом мы генетически родны наполовину. В этой статье нет возможности углубиться в доказательства, поэтому сразу приведу выводы. Всё живое (включая людей) является переносчиком генов (последовательностей нуклеотидов), которые эволюционируют. Эволюцию генов обеспечивают три фактора:

  • способность генов побуждать окружающую среду к воспроизводству себя (ей обладают именно гены, не организмы), или, другими словами, способность к репликации;
  • изменчивость генов, мутация;
  • отбор наиболее приспособленных генов (если ген повлиял на формирование организма так, что он плохо действует в окружающей среде, организм не выживает, ген не распространяется).

Другими словами, мы, бананы и шимпанзе являемся, не больше и не меньше, единой средой для репликации генов.

Мы старательно пытаемся доказать себе, что как вид являемся венцом эволюции, но виды не эволюционируют, эволюционируют гены.

Хорошо, а как же быть с культурой? Знаниями? Способностью менять мир?

Первым видом, изменившим мир, были бактерии, переработавшие атмосферу Земли из углекислого газа в кислород, и это было самое серьёзное (пока) воздействие биологического вида на планету Земля.

Человечество не является также и единственным носителем идей. Способность к научению развивается у животных постепенно в результате эволюции. Вслед за ней следуют первые проблески того, что мы могли бы назвать «идеями». Песни некоторых видов птиц не заложены генетически. Птенцы учат песни у старших, и в этот процесс часто закрадываются ошибки — песни немного меняются со сменой поколений. Дельфины обладают языком и личными именами.

Ричард Докинз точно подметил, что человечество (и другие некоторые животные) являются средой для репликации идей. И назвал идеи «мемами» по аналогии с генами. Меметическая эволюция происходит ровно по тем же законам, что и биологическая, только в другой среде. Её обеспечивают:

  • способность идей побуждать организмы-носители к воспроизводству себя для передачи другим организмам-носителям, или, другими словами, к репликации;
  • изменчивость идей и появление новых идей из комбинации старых, мутация;
  • отбор наиболее приспособленных идей как внутри одной головы, так и при общении организмов-носителей между собой.

Абстрактные концепции игры Го, которыми мы пользуемся в игре, также являются идеями, и они точно так же появились в результате эволюции, после отыгрыша человечеством миллионов партий, обмена опытом и взаимного обучения.

Естественно, что часть игровых концепций родилась из аналогий с обычной жизнью человека («сила», «слабость», «влияние», «убегание», «баланс»). А другая часть, наоборот, родившись в игре, перешла по аналогии в действия в реальном мире («на нападение в одной части доски можно ответить не защитой, а нападением в другой части доски, чтобы не терять темп»).

Человечество сегодня — самая эффективная на Земле среда для воспроизводства неспецифичных идей (предположительно, благодаря существованию языка и грамматики, см. «Язык как мышление» Стивена Пинкера).

Благодаря развитию нейробиологии и компьютерных наук мы почти научились создавать новые среды для эволюции идей (чем и является сильный искусственный интеллект). Именно в этом «почти» кроется повод для человеческого оптимизма и выход из «зловещей долины».

  • Копии AlphaGo для игры с самой собой создаются и отбираются алгоритмом, написанным человеком (пока что). AlphaGo не может (пока что) самостоятельно побуждать среду к воспроизведению себя.
  • Идеи AlphaGo (и других нейронных сетей) узкоспецифичны. AlphaGo отлично играет в Го, но она не умеет писать картины. Deepart умеет писать картины, но не умеет играть в Го.

Похоже, именно это отличие делает AlphaGo «зловещим». Нам кажется, что AlphaGo — злобный гомункул, который идеальной игрой разрушит культуру Го, но это не так.

Привет, человечество!

AlphaGo как расширение среды

Все предметы, которыми мы пользуемся: от зубной щётки до смартфона, это овеществлённые идеи, это расширения наших тел и разумов. Камень в руке питекантропа — продолжение его руки. Это не красивое обобщение, нейрофизиологические исследования показывают, что шимпанзе, держащая в руке палку, воспринимает её кончик как свою руку, включает палку в образ своего тела.

Вы можете легко проверить это на себе: включите любимую музыку и попробуйте стучать о стол дальним кончиком вилки в ритм музыки, как показано на следующем изображении. В этот момент ваше внимание будет сосредоточено именно на кончике вилки, а не в пальцах руки. Если вы сосредоточитесь на пальцах руки, стучать в ритм не получится.

Расширением человеческих тел и мозгов (как среды воспроизводства идей) являются стулья, книги, телефонные сети, интернет, Википедия… Всё, что нас окружает и чем мы пользуемся — расширение среды распространения идей и/или результат их распространения.

AlphaGo, как и Википедия, это расширение среды распространения Го-идей, артефакт человечества, а не сын:

  • нейросеть обучена на смыслах (записях партий), которые созданы в результате деятельности людей;
  • нейросеть эволюционирует только вследствие активации отбора людьми,
  • нейросеть содержит только идеи относительно игры Го.

Если Википедия — внешняя память человечества, то AlphaGo — внешняя способность человечества играть в Го.

В этом новом расширении пространства для эволюции Го-идей благодаря десяткам миллионов итераций появились новые идеи «балансовости партии», которые невозможно выразить на человеческом языке, потому что они находятся где-то внутри нейросети, а AlphaGo языком не владеет в силу специфичности.

Более того, идеи AlphaGo насчёт правильной игры в Го эффективнее, чем наши, потому что AlphaGo обыгрывает Ли Седоля!

Причина, по которой AlphaGo не претендует на разрушение человеческой культуры Го, проста: новые смыслы, которые уже созданы (sic!) внутри нейросети, никак не передать напрямую обратно в людей.

Го как тренировка сингулярности

12 марта 2016 года войдёт в историю как день яркой демонстрации того, что человечество не является исключительной средой для распространения идей.

Эта демонстрация приближает нас к созданию неспецифического (сильного) искусственного интеллекта, и даёт нам возможность подготовиться к нему. Мы получили очень узкую «заводь смыслов Го», специфическое и сверхэффективное расширение человечества как среды распространения идей. Ближайший вызов — научиться сосуществовать с ним. Мы должны это сделать, потому что нам придётся учиться сосуществовать с гораздо более широкими «заводями», принимающими за нас решения о лечении болезней (IBM Watson уже это делает), о путях доставки грузов и движении транспорта, о выборе образовательных программ…

Руководители Google и AlphaGo должны понимать, что вопрос не только в технологии обучения нейросети. Гораздо важнее — интеграция технологий в человеческое общество. Интеграция AlphaGo в Го-сообщество может стать пилотным проектом.

Что может сделать Google?

  • Выпустить AlphaGo на игровой сервер.
  • Создать рабочую группу, чтобы профессионалы могли экспериментировать с обучением копий AlphaGo на разных начальных выборках.
  • Запустить серию экспериментов с различными вариантами начала партии, чтобы развить теорию фусэки.

Это позволит радикально ускорить развитие человеческого понимания Го. Нам придётся смириться, что мы никогда не поймём Го лучше, чем AlphaGo, потому что наш понятийный аппарат не узкоспецифичен для этой задачи. Зато новое понимание Го обогатит набор игровых концепций, которые мы сможем использовать в реальной жизни, в неигровых ситуациях.

Худшее, что может сделать Google — выключить рубильник, просто обкатав технологии (как это сделали IBM с Deep Blue). Го-сообщество велико, и ему нанесён слишком серьёзный психологический удар.

Резюме

  1. Поражение Ли Седоля от AlphaGo — серьёзный прорыв в понимании нами окружающего мира и нас самих. Принципиально бо́льший, чем в случае с шахматами и DeepBlue.
  2. Нет, AlphaGo — это не SkyNet.
  3. Да, AlphaGo понимает игру Го лучше человека. Проблема в том, что идеи AlphaGo невозможно изъять из него и перевести на человеческий язык.
  4. AlphaGo — расширение коллективной памяти и коллективного опыта человека, а не deus ex machina.
  5. Пока что нейросети специфичны и не автономны. Ждём новых применений, и до чего же это волнительно!

Завершим цитатой из заметки “The Sadness and Beauty of Watching Google’s AI Play Go” в Wired.

Если вам понравилась эта история, поделитесь ей с другими читателями или нажмите сердечко

Спасибо! ☺

Поддержать автора на PatreonБольше идей в Medium · Telegram · Facebook

Official Russian

Истории и идеи каждого на русском.

Official Russian

Истории и идеи каждого на русском.

Alexey Ezhikov

Written by

Executive coach, group trainer, advisor. Helping top managers to understand and pursue their individual mission.

Official Russian

Истории и идеи каждого на русском.

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Start a blog

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store