Bilgisayarlar Yemek Tariflerini Anlayabilir mi?

Yapay zekâ alanında son onyılda kazanılan başarıların büyük bir çoğunluğu bu gelişimi derin öğrenme olarak adlandırılan yapay öğrenme tekniklerine borçlu. Bu yeni nesil yapay sinir ağları, görüntü sınıflandırma, ses tanıma, iki dil arasında çeviri yapma gibi konularda insan seviyesine yaklaşmış durumdalar ve hatta Go ve Starcraft gibi oyunlarda dünya şampiyonlarını bile yenebiliyorlar. Bu farklı farklı alanlarda yakalanan başarılara rağmen bu yapay öğrenme sistemlerinin başarısız oldukları önemli bir nokta var: Ortak akıl yürütme (commonsense reasoning). Dünyanın nasıl işlediğine dair genel geçer bilgilerden bahsediyoruz. Bir fil arabaya sığar mı? Soğanı doğradığınızda ne olur? Dondurmasını yere düşüren bir çocuk nasıl hisseder? Bir tenis topunu duvara fırlattığınızda ne olur?

Geçtiğimiz Kasım ayında ACL Conference on Empirical Methods in Natural Language Processing (EMNLP2018) konferansında sunulan bir çalışmada, bölümümüzdeki araştırma laboratuvarlarından Hacettepe Üniversitesi Bilgisayarla Görme Laboratuvarı (HUCVL)’ndan araştırmacılar bilgisayarların yukarıda değindiğimiz ortak aklın özel bir alt türü olan nasıl yapılır bilgisini (yordamsal bilgi) ne kadar iyi anlayabildiğini ölçen bir test öneriyorlar. HUCVL doktora öğrencisi Semih Yağcıoğlu’nun tez çalışmaları kapsamında gerçekleştirdiği ve tez danışmanı Doç. Dr. Aykut Erdem dışında Doç. Dr. Erkut Erdem ve Doç. Dr. Nazlı İkizler Cinbiş’in de katkıda bulunduğu bu çalışma, daha belirgin bir şekilde İngilizce yemek tariflerini okuyup anlama üzerine gidiyor. Bir örnek oluşturması adına, İngilizce biliyorsanız, aşağıdaki yemek tarifini okuyup aklınızda bu yemeğin nasıl yapıldığını canlandırmaya çalışın isterseniz.

9 adımda “Hindistan Cevizi Kremalı Körili Nohut” tarifi.

RecipeQA adını verdikleri bu çalışma için araştırmacılar ustaca bir yol izlemişler; doğrudan webe yüklenmiş yemek tariflerini kullanmak. RecipeQA için İnternet’de bulunan bir nasıl yapılır web sitesi olan instructables.com’daki 22 yemek kategorisinden seçilen yaklaşık 20 bin civarında değişik yemek tarifi kullanılmış. Bu yemek tariflerinden otomatik olarak oluşturulan veri kümesi, görsel boşluk doldurma (visual cloze), metinsel boşluk doldurma (textual cloze), görsel açıdan farklı olanı bulma (visual coherence), görüntüleri doğru sıraya dizme (visual ordering) gibi farklı soru türlerinden toplam 36 bin civarında farklı soru içeriyor. Bu soruları doğru biçimde yanıtlamak için bir modelin verilen yemek tarifini okuyup anladıktan sonra ne sorulduğunu özümseyip şıklar ile soru arasındaki bağlantıları kurabilmesini gerektiriyor. Araştırmacılar, RecipeQA’in yapay zekâ modellerinin sınırlarını test etmede önemli bir araç olacağını söylüyorlar. Bu yönde elde ettikleri ön sonuçlar bu savı doğrular nitelikte. Başarısını test ettikleri modellerin içinde Google DeepMind’in geliştirdiği kuvvetli bir derin model de bulunuyor ve bu modelin başarısı bile insanların test performansının yanında çok düşük kalıyor.

RecipeQA veri kümesinden örnek sorular ve test edilen modellerin verdikleri yanıtlar. Doğru cevaplar yeşil renk ile gösterilmiş.

Semih Yağcıoğlu,“Bu oluşturduğumuz test, hepimizin öğrencilik hayatında karşılaştığı çoktan seçmeli okuduğunu anlama sorularına benziyor. Doğal dil işleme literatüründe okuduğunu anlama son yıllarda oldukça yoğun çalışılan bir konu. Bu çalışmamız, literatürdeki benzerleri ile kıyaslandığında iki farklı özgünlük barındırıyor. Bunlardan ilki kısa bir paragraflık metinler yerine çok daha uzun ve farklı sayıda adımlardan oluşan nasıl yapılır metinlerine yoğunlaşmamız. İkincisi ise oluşturduğumuz soruların sadece metin değil görüntüler de içermesi. Böyle olunca bir yapay zekâ sisteminin görme ile dili bütünleşik bir yapıda anlaması gerekiyor. Bu durum soruları çok daha zorlu kılıyor.” diye belirtiyor. Bu noktada, RecipeQA’in MIT tarafından yayınlanan Technology Review dergisince EMNLP 2018 konferansında sunulan en yaratıcı üç çalışmadan biri olarak seçildiğini de not düşelim.

İlgili yayın:
RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes. Semih Yagcioglu, Aykut Erdem, Erkut Erdem, and Nazli Ikizler-Cinbis. Conference on Empirical Methods in Natural Language Processing (EMNLP2018), Brussels, Belgium, October 2018

Proje sayfası:
https://hucvl.github.io/recipeqa/

Basında:
Cookbooks, Wikipedia, and auto-generated Spanglish: The quirky ways AI researchers gather data. MIT Technology Review, Karen Hao, 5 Kasım 2018

--

--