TURING TESTİ GEÇİLDİ!
Yeni Bir Ölçüt İhtiyacı
Son zamanlarda GPT-4 ve LaMDA gibi büyük dil modellerinin kaydettiği hızlı ve şaşırtıcı gelişmeler, bu modellerin başarısını neye göre ölçeceğimiz sorusunu da beraberinde getirdi. Doğal olarak ilk değerlendirmeler büyük ölçüde, modelin; benzerleri ve önceki versiyonları ile hızlı bir şekilde karşılaştırılmasının sonuçlarına göre şekillendi. Her ne kadar bu gerekli ve kabul edilebilir olsa da abartılı ve irrasyonel yaklaşımlar, gerçekliğe ulaşmaya çalışan tutumları da ne yazık ki gölgede bırakarak alanın dışına itmiş oldu. Ortada kalan şey ise, modelin açıklarını bularak hayal kırıklığı oluşturan taraflarına vurgu yapan ya da “artık hiçbir şey eskisi gibi olmayacak” türünden idealize edilmiş söylemleri haklı çıkarmaya matuf argümanlarla dolu iki irrasyonel uç arasında seyreden; popülizme meyyal tartışmalar oldu.
Çeşitli öznel saiklerle popüler algıya hitap eden bu türlü yaklaşımların ilk günlerde sosyal medyanın itici gücünü de kullanarak meydanları doldurması elbette beklenen bir şeydi. Ancak -gerçekliğin üstünü bir sis gibi saran bu toz-dumanın kalkmasına yetecek kadar bir süre geçtikten sonra- hiç vakit kaybetmeden yazının başında sorduğumuz can alıcı soruyu tekrar hatırlamak gerekiyor: Yapay zeka modellerinin başarısını ölçeceğimiz sağlıklı ve rasyonel bir ölçütümüz var mı?
Bu kritik sorunun akla getirdiği ilk şey elbette ki Turing testi olacaktır. Zaten internette yapılan hızlı bir araştırmada, “Chat-GPT Turing testini geçti mi?” sorusunun defalarca arattırıldığı hatta modelin bizzat kendisine de sorulduğu görülmektedir. Turing’in 1950 yılında zamanının çok ilerisinde bir vizyonla ortaya attığı ve ilk bakışta basit gibi görünen tezinin altındaki problem aslında “Makineler insanı kandırabilir mi?”[1] sorusuydu. Bu soru günümüze kadar, yapay zekaya özerk bir alan açarak bu alandaki gelişmeleri diğer bilgisayar teknolojilerinden ayıran çok kritik bir işlev gördü. Öyle ki, bu ayrım fark edilemeseydi yapay zekanın ayrı bir endüstri haline gelemeyeceğini öne sürmek abartılı bir iddia olmayacaktır.
Turing’in sorusunun tarihsel süreç açısından önemini bu şekilde belirledikten sonra, “Makineler insanı kandırabilir mi” sorusunun GPT-4 ile bugün gelinen noktada yeterli olup-olmayacağını sorgulamak gerekecektir. Her ne kadar bu sorgulamanın cevabına ilişkin fazlasıyla spekülasyon yapılmış olsa da Chat-GPT’nin karşılıklı diyalog yapısı içerisinde ürettiği cevapların, muhatabını kendisinin insan olduğuna ikna edebilecek ya da hiç bilmeyen birini şüpheye düşürmeyecek olgunlukta olduğunu rahatlıkla söyleyebiliriz. Bu sonuç, herhangi bir teknik değerlendirmeye gerek kalmayacak açıklıkta karşımızda duruyor. Yani tam bu noktada “Makineler İnsanı Kandırabilir mi?” sorusunun cevabı “Evet, kandırabilir, kandırıyor ve kandırmaya devam edecek” olacaktır. Görünen o ki Turing testinin artık, yapay zeka alanındaki gelişmeleri değerlendirme ölçütü olarak anlamsız hale geldiği bir noktadayız.
[1] Turing her ne kadar makalesinde sorusunu “Makineler düşünebilir mi?” biçiminde ifade etmiş olsa da testin ana fikri, makinelerin insanı taklit edip edemeyeceği, yani kandırabilecek bir yeteneğe ulaşıp ulaşamayacağı olduğu için Turing’in sorusunu bu şekilde ifade etmenin daha açıklayıcı olduğunu düşünüyorum.
Yapay zekanın fikirsel olarak çıkış noktası kabul edebileceğimiz Turing’in yaklaşımının bu kadar uzun ömürlü olması bile esasında ne kadar öngörücü olduğunun bir ispatı olarak karşımızda duruyor. Ancak özellikle büyük dil modellerinin çok hızlı bir şekilde gelişen sözel yetenekleri artık yeni bir eşiğin tam önünde belki de ötesinde olduğumuz gerçeğini, her geçen gün daha güçlü bir şekilde bize dayatıyor. Turing testinin anlamsız hale geldiği bu noktada kıyasa dayalı popülist yaklaşımlar, bu gelişmeleri kavramsal bir bakışla kuşatamama acziyetinin gizli bir itirafı olmaktan öteye geçemeyecek. Hala Turing testini referans vermeye devam etmek ise, yapay zekanın ulaştığı düzeyi değerlendirebilme adına teorik bir çerçeve ve rasyonel ölçütler oluşturma gerekliliğini biraz daha öteleyerek zaman kaybından başka bir işe yaramayacaktır.
Öyleyse sormamız gereken yeni soru ne olmalıdır? Makineler artık insanları kandırabildiklerine göre bundan sonraki yapay zeka versiyonlarının ilerlemesini ölçebileceğimiz açık ve net bir soruya ihtiyacımız var. Makineler nereye doğru gidiyor, neyi hedefliyorlar? Biz onlara ölçülebilir ve kontrol edilebilir bir hedef tayin etmediğimiz sürece korkarım ki bunu anlamak hiç kolay olmayacak. Her yeni gelişmede, iki aşırı uçta toplanmaya eğilimli yorum ve değerlendirmelerin gürültüsü, sağduyulu yaklaşımları yine bastırmaya devam edecek. Bu kargaşa ortamında ise, aslında yapay zekanın zaten büyük bir hızla ilerlediği yeni hedef noktasına ne kadar yaklaştığını kestirmek imkansız olacak. O halde elimizde öyle kavramsal bir ölçüt olmalı ki yeni bir model duyurulduğu zaman hemen bu sorunun ışığının altında modelin tüm özelliklerini değerlendirme imkanına kavuşabilelim. Bu bakış açısını geliştiremediğimiz takdirde, heyecan ve küçümseme gibi duygusal tepkilerin belirlediği ve kendi rengine boyadığı irrasyonel ve öznel tutumlar, entelektüel bir tatmin sağlamaktan öteye geçemeyecek ve işte asıl o zaman yapay zeka kontrolümüz dışına çıkarak varoluşsal bir tehdide dönüşecektir.