Yapay Zekaya İlk Adım: MENACE Modeli

Utku Akıncı
AIS Turkey Yapay Zeka Toplulugu
4 min readSep 10, 2020

MENACE modelini kullanarak 300 tane kibrit kutusuna XOX oynamayı nasıl öğretebilirsiniz ?

Oyun oynamak için makine öğrenmeyi kullanmak, öğrenme modellerini anlamak ve geliştirmek için her zaman mükemmel bir yol olmuştur. Google DeepMind, son on yılda Asya ülkeleri arasında popüler olan dünyanın en karmaşık ve en zor oyunu olarak da bilinen Go’yu oynamak için evrişimli bir sinir ağı (convolutional neural network) eğitmeyi başardı ve IBM’in satranç bilgisayarı Deep Blue, dünyanın en iyi satranç oyuncusu Garri Kasparov’u yendi.

Peki tüm bunlar nasıl başladı ?

Tüm bunlar 1960 yılında bir kibrit kutusu modeli tasarlayan Donald Michie ile başladı.

Gelişmiş öğrenme modelleri uygulamalarından önce, herhangi bir fikir mekanik olarak tasarlanırdı. MENACE (Matchbox Educable Noughts And Crosses Engine) olarak adlandırılan Michie’nin tasarımı, tam da bu mekanik tasarım mantığına uygun olarak birkaç boncuk içeren ve XOX (tic-tac-toe) oynamayı öğrenen büyük bir kibrit kutusu yığınıydı.

304 adet kibrit kutusu ile oluşturulmuş MENACE modeli

MENACE, temelde sinir ağları (neural network) gibi çalışır. Başlangıçta rastgele optimize edilir, ancak birkaç oyun oynadıktan sonra, her durumda daha başarılı olduğu düşünülen hareketleri tercih etmek için kendini ayarlar. Modelin başarısı, yaptığı hamlelere göre cezalandırılmasına veya ödüllendirilmesine dayanır.

Her bir kibrit kutusu, XOX’in belirli bir tahta düzenini temsil eder, bu da neden bu kadar çok kibrit kutusu olduğunu açıklar. Yine de, bu model her benzersiz düzen için farklı bir kutu içermez — eğer öyle olsaydı çok daha fazla kutu olurdu. Modeli uygulanabilir hale getirmek ve basitleştirmek için Michie birkaç kural belirledi: İlk olarak, aynı şeyin döndürülmüş versiyonları olan veya tek bir kutu ile birbirine simetrik olan tüm düzenleri ifade etti.

Örneğin, tek bir kutu aşağıdaki tüm düzenleri içinde barındıracak şekilde ayarlanmıştı:

Aynı hamlenin 90 derece döndürülmüş ve simetriği alınmış halleri

Eğitim başladığında, tüm kutular renk kodlu boncuklar içerir, burada her renk bir tahta üzerinde bir hareketi (veya konumu) temsil eder.

Modeldeki kibrit kutularının yakından fotoğrafı
Her kutuda bulunan renkli boncukların hangi kutucuğa denk geldiğini gösteren tablo

İnsan oyuncu, oyunun mevcut durumunu temsil eden kutudan rastgele renkli bir boncuk aldığında MENACE harekete geçer. Çekilen boncuğun rengi MENACE’in hangi kutucuğa hamle yapacağını belirler. MENACE’nin bazı versiyonlarında, sadece yan, merkez veya köşe gibi daha açık hareketleri temsil eden boncuklar da vardır.

İnsan oyuncu, boncukları rastgele seçer, tıpkı bir sinir ağının ağırlıkları başlangıçta rastgele seçmesi gibi. Ayrıca ağırlıklar gibi, boncuklar da başarısızlık veya başarı olduğunda ayarlanır. Her oyunun sonunda, MENACE kaybederse, kutulardan çekilen boncuklar oyun sırasında kullanılan her kutudan kaldırılır. MENACE kazanırsa, o oyun için gene her bir turda kullanılan renkle aynı olan üç boncuk, ilgili kutulara eklenir. Eğer oyun berabere sonuçlanmışsa, ilgili kutulara birer adet boncuk eklenir.

MENACE mükemmel oynayan bir bilgisayara karşı oynadığında, sonuçlar şöyle görünür:

MENACE bir bilgisayara karşı oynadığı zamanki grafik

Unutmayın ki beraberlik olumlu olarak kabul edilmektedir. Çünkü bu MENACE’in öğrendiğini gösterir. MENACE asla mükemmel algoritmaya karşı kazanamazdı, ancak mükemmel algoritmaya karşı yaklaşık 90 oyunda her seferinde kendi oynayışını geliştirdi ve eşit derecede hamlelerini mükemmel hale getirerek yenilmez hale geldi.

MENACE hamlelerini rastgele seçen bir rakibe karşı oynadığında, sonucun neredeyse mükemmel bir pozitif korelasyon olduğu görülmektedir:

MENACE gelişi güzel sonuçlar üreten bir rakibe karşı oynadığı zamanki grafik

Buradaki linkten MENACE simülasyonunu kendiniz de deneyimleyebilirsiniz.

Donald Michie’nin yaptığı bu çalışma yapay zekada makine öğrenmesinin nasıl çalıştığının anlaşılması adına çok basit bir örnektir, ancak harika bir sunum çalışmasıdır. Benim de makine öğrenmesi üzerine yaptığım eğitim ve atölye çalışmalarında da zaman zaman yer verdiğim bir çalışmadır.

İlginizi çekebilecek bazı videolar

The Game That Learns

MENACE: the pile of matchboxes which can learn

Building a MENACE machine, Matthew Scroggs

Orijinal hikayeye buradan ulaşabilirsiniz.

--

--

Utku Akıncı
AIS Turkey Yapay Zeka Toplulugu

Yapay Zeka, Mekatronik ve Güncel Teknolojiler Hakkında Yazılar