Makine insana karşı: Bu kez Go tahtasında

“Satrancın Barok kuralları ancak biz insanlar tarafından icat edilebilecekken ‘go’nun kuralları o kadar nezih, organik ve kati bir şekilde mantıklıdır ki; eğer evrenin başka yerlerinde akıllı yaşam formları varsa neredeyse kesinlikle go oynuyorlardır.” 
Uluslararası Satranç Ustası,
Edward Lasker

Oyunlar, sorunları insanlara benzer yollardan ele alan daha esnek ve zeki algoritmalar geliştirmek için muazzam bir test alanı. İnsanlardan daha iyi oyun oynayabilen programlar yaratmanın tarihiyse eskilere uzanıyor. Bilgisayar tarafından yönetilen ilk oyun tic-tac-toe 1952’de bir doktora adayının projesiydi. Daha sonra 1994’te checkers geldi. Satranç oynayan ilk bilgisayar ise 1997’de üretilen Deep Blue oldu. Başarılar masa üstü oyunlarla sınırlı değildi, IBM’in Watson’ı 2011’de Jeopardy’de (Türkçe uyarlaması Riziko) birinci oldu ve 2014’te Google algoritmaları onlarca Atari oyununu oynamayı öğrendi.

Bugüne kadar yapay zekâyı engelleyen bir oyun vardı, binlerce yıllık GO. Kökenleri 2500 yıldan daha eskiye uzanan Çin oyunu dünya çapında 40 milyon insan tarafından oynandı. Kurallar basit: oyuncular siyah ve beyaz taşları sırayla tahtaya koyarak, rakibin taşlarını ve boş alanları çevreleyip alan kazanarak puan alır. Konfüçyüs oyunu ve oyundaki estetik güzelliği gerçek bir Çin bilgini olmak için gereken 4 sanattan biri olarak tanımlar. Go, öncelikli olarak sezgi ve duygu ile oynanır ve inceliği ve zekâ derinliği ile insanın hayal gücünü yüzyıllardır yakalar.

Kuralları çok basit olmasına rağmen engin bir karmaşıklığın oyunudur. Go’nun arama alanı uçsuz bucaksız -satrançtan googol kez daha fazla- (evrendeki atom sayısından daha fazla bir sayıdan bahsediyoruz!) Sonuç olarak geleneksel deneme yanılmaya dayalı (brute force) yapay zekâ metotları — mümkün olan tüm hamle sonuçlarını içeren bir arama ağacı inşa etmeden Go’da bir şansa sahip değildi. Şimdiye kadar bilgisayarlar ancak amatörler kadar iyi oynayabiliyordu. Uzmanlar dünyanın seçkin Go profesyonellerini yenen bir bilgisayar için en az 10 yıl geçmesi gerektiği öngörüsündeydiler.

Biz (Google DeepMind) bu durumu karşı koyulmaz bir meydan okuma olarak gördük! AlphaGo ile bu engellerin üstesinden gelebilecek bir sistem inşa ettik. AlphaGo’nun sırrı inanılmaz büyüklükteki bu arama alanını kontrol edilebilir düzeyde küçültmesinde. Bunu yapmak için en yeni arama ağacı teknolojisini, milyonlarca nöron benzeri bağlantıya sahip tabaka içeren iki derin nöral ağ ile birleştirdi. “Policy network” (arama ağı) aramayı, kazanmaya yönelik olacağını öngördüğü hamlelerle daraltarak bir sonraki hamleyi tahmin etti. Diğer nöral ağ “value network” (değer ağı) ise oyunun sonuna kadar her pozisyonda kazananı tahmin ederek arama ağacının derinliğini azalttı.

AlphaGo’nun arama algoritması önceki yaklaşımlara göre çok daha insan benzeri bir algoritma. Örneğin, Deep Blue satranç oynarken deneme yanılma yöntemi benzeri bir yöntem olan brute force ile AlphaGo’dan binlerce kez fazla pozisyon araması yaptı. Bunun yerine AlphaGo, Monte Carlo Arama Ağacı olarak bilinen teknikle oyunun kalanına bakarak karar veren ileriye dönük bir metot geliştirdi. AlphaGo, önceki Monte Carlo programlarından farklı olarak, aramaya rehberlik etmesi için derin nöral ağları kullandı.

Öncelikle uzmanlar tarafından oynanan 30 milyon hamleyi içeren policy network’ü, insan hareketlerini % 57 oranında tahmin edebilir hale gelene kadar, eğittik (AlphaGo’nun daha önceki rekoru % 44’tü) Ancak amacımız en iyi oyuncuları taklit etmek değil, yenmekti. Bunu yapmak için AlphaGo, nöral ağlarında binlerce oyun oynayarak yeni stratejiler keşfetti ve takviyeli öğrenme denen bir deneme yanılma metoduyla gitgide gelişti. Bu yaklaşım çok daha iyi bir hareket ağına (herhangi bir arama ağacı olmadan) sebep oldu ve bu ham nöral ağ, teknoloji ötesi dev arama ağacı geliştiren Go programlarını yenebilir hale getirdi.

Bu hareket ağları sırasıyla, tek başına oynanan oyunlardaki takviyeli öğrenme metoduyla değer ağlarını eğitti. Bu değer ağları herhangi bir Go pozisyonunu değerlendirip olası galibi tahmin edebiliyordu (o kadar büyük bir problem ki imkânsız olduğu düşünülüyordu).

Tabii ki tüm bunlar çok büyük boyutta hesap gücü gerektiriyordu, bu yüzden istenildiğinde araştırmacılara yapay zekâ ve makine öğrenimi konusunda esnek hesaplama, depolama ve şebeke kapasitesiyle erişim sağlayan Google Cloud Platform’u kapsamlı olarak kullandık. Ek olarak bilgi akış grafiklerini kullanan sayısal hesaplamalar için, araştırmacılara çoklu CPU ve GPU’lar arası derin öğrenme algoritmalarında gereken hesaplamayı sağlayan

TensorFlow gibi yeni açık kaynak kütüphanelerden yararlandık.

Peki, AlphaGo ne kadar güçlü? Bu soruyu cevaplamak için AlphaGo ile yapay zekâ araştırmalarının ön sıralarında yer alan Go programları arasında bir turnuva düzenledik. Tek bir makineye AlphaGo, tüm bu programlara karşı oynadığı 500 oyunun tümünü kazandı. Üstelik AlphaGo rakiplerine her oyunda 4 taş handikapla (avans) başlama hakkı verdi. AlphaGo’nun birçok makineye dağıtılmış yüksek performanslı versiyonu çok daha güçlüydü.

AlphaGo daha zorlu görevlere hazır gibi görünüyordu. Biz de 3 kez Avrupa Go şampiyonu olan Fan Hui’yi (12 yaşından itibaren hayatını Go’ya adamış olan seçkin ve profesyonel bir oyuncu) karşılaşma için Londra’daki ofisimize davet ettik. Karşılaşma geçen sene 5–9 Ekim tarihleri arasında kapalı kapılar ardında gerçekleşti. AlphaGo, 5’e 0 galip oldu; ilk kez bir bilgisayar programı profesyonel bir Go oyuncusunu yenmişti.

AlphaGo’nun sıradaki görevi, dünyadaki son on yılın en iyi Go oyuncusu Lee Se-dol ile karşılaşmak olacak. Maç Mart ayında Kuzey Kore, Seul’de gerçekleşecek. Lee Se-dol maç için heyecanlı “Oynayacak kişi olmaktan şeref duyuyorum ama kazanabileceğim konusunda güvenim tam”. Büyüleyici bir karşılaşma olacağına şüphe yok.

Go konusunda uzmanlaşmaktan heyecan duyuyoruz, böylece yapay zekânın en büyük meydan okumalarından birine ulaştık. Bununla birlikte, bizim için en kayda değer bakış açısı; AlphaGo’nun sadece el yapımı kurallarla yaratılan bir uzman sistemi olması değil, kendini geliştirmek için sadece izleyerek ve oynayarak genel makine öğrenim tekniklerini kullanıyor olması. Oyunlar yapay zekâ algoritmalarını hızlı ve etkili biçimde geliştirmek ve test etmek için mükemmel platformlar olmasına karşın, sonuçta biz bu teknikleri önemli gerçek dünya sorunları üzerinde uygulamak istiyoruz. Çünkü genel amaçla kullandığımız metotlar umuyoruz ki bir gün, iklim modellemeden karmaşık hastalıkların analizine, toplumun en sert ve acil problemleri hakkında bizlere yardımcı olacak şekilde genişletilebilecek.

Başlık ve alıntı dışındaki bölümler Google Research Blog’un 27 Temmuz 2016 tarihindeki makalesinden çevrilmiştir.


Originally published at sosyalkeci.com on February 17, 2016.

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.