Kara Kutuyu Yorumlamak: Büyük Dil Modelleri ve Dil Bilgisi — Biçimbilim — Deniz Ekin Yavaş

CogIST

Published in

CogIST

6 min readMar 21, 2024

Yazar: Deniz Ekin Yavaş

Editör: Asena Sayın

“Kara Kutuyu Yorumlamak” serisinin tüm yazılarına buradan erişebilirsiniz.

Deniz Ekin Yavaş, Heinrich-Heine Üniversitesi’nde Hesaplamalı Dilbilim alanında doktora öğrencisi ve araştırma görevlisi. Öneğitimli dil modellerini kullanarak sözlüksel anlambilim ve anlambilim-sözdizim kesişimini araştırıyor.

Son yıllarda büyük dil modelleri birçok farklı görevde elde ettikleri başarılarla büyük ilgi çekti. Bu başarılar, bizlere büyük dil modellerinin öneğitim (pre-training) süreçlerinde dilin istatistiksel bilgisinin ötesinde dile ilişkin çok daha fazlasını öğrenip öğrenmediğini sormamıza neden oldu. Bunun sonucu olarak bu soruyu yanıtlamayı amaçlayan yorumlanabilirlik (interpretability) çalışmaları bilimsel alanda büyük bir önem kazandı. Bu serinin amacı, farklı konulardaki yorumlanabilirlik çalışmalarına değinerek modellerin bilişsel olarak gerçekçiliğini (cognitive plausibility) sorgulamak.

Bu yazı serisinde geçen yazıyla beraber odağımızı dilbilgisine çekmiş ve sözdizimine odaklanmıştık. Bu yazıda ise biçimbilime (morphology) değineceğiz. Biçimbilim, bir dildeki sözcüklerin iç yapısını inceleyen dilbilimin alt dalıdır. Biçimbilim bir dilde yeni sözcüklerin nasıl oluştuğunu ve sözcüklerin çekimlenerek tümcelerde belirli dilbilgisel işlevlerini nasıl yerine getirdiklerini inceler.

Bu yazıda büyük dil modellerinin biçimbilime ilişkin bilgi edinip edinmediğini sorgulayacağız ve bu konuda yapılmış yorumlanabilirlik çalışmalarına yer vereceğiz. Bu çalışmalara geçmeden önce biçimbilime ve temel kavramlarına değinerek başlayalım.

Biçimbilim ve Temel Kavramları

Biçimbilim, bir dildeki sözcüklerin iç yapısını inceleyen dilbilimin alt dalıdır. Sözcükler biçimbirimlerden (morpheme) oluşur. Bir dilin biçimbirimleri aslında o dildeki kökler (roots) ve eklere (affıxes) denk gelmektedir. Bir sözcük bir biçimbirimden oluşabileceği gibi birden çok biçimbirimin bir araya gelmesiyle de oluşabilir. Örneğin, ‘kitap’ sözcüğü tek bir biçimbirimden (‘kitap’ kökü) oluşurken, ‘kitaplık’ sözcüğü iki biçimbirimden oluşur (‘kitap’ kökü ve ‘-lık’ eki). Sadece bir biçimbirimden oluşan sözcüklere basit sözcük (simple word), birden çok biçimbirimden oluşan sözcüklere ise karmaşık sözcük (complex word) adı verilir.

Eklerin bir işlevi yeni sözcük üretimidir. Biçimbilimde buna türetim (derivation) adı verilir. Ekler başka biçimbirimlerle birleşerek yeni sözcükler üretir. Ekler basit sözcüklere eklenerek karmaşık sözcükler oluşturabilir, ‘kitaplık’ (‘kitap’, ‘-lık’) örneğinde olduğu gibi ya da halihazırda karmaşık sözcüklere eklenerek başka karmaşık sözcükler oluşturabilir, örneğin ‘gözlük’ (‘göz’, ‘-lük’) sözcüğünden ‘gözlükçü’ (‘göz’, ‘-lük’, ‘-çü’) sözcüğünün türetilmesinde olduğu gibi.

Eklerin başka önemli bir işlevi ise sözdizimiyle, yani sözcüklerin tümcelerdeki dilgisel işleviyle yakından ilişkilidir. Bu amaçla ekler belirli bir dilbilgisel bilgiyi ifade etmek için sözcüklere eklenir. Biçimbilimde buna çekim (inflection) adı verilir. Çekime örnek olarak adlar için durum (case), sayı (number), dilbilgisel cinsiyet (gender) çekimleri; eylemler için zaman (tense), kişi (person) çekimleri verilebilir. Farklı sözcük türleri için çekim örnekleri aşağıda görülebilir. Her dil aynı çekim özelliklerine sahip değildir. Örneğin Türkçe’de adlar dilbilgisel cinsiyetlerine göre çekimlenmez ya da benzer bir şekilde İngilizce’de adlar duruma göre çekimlenmez.

Adlarda sayı: Türkçe’de tekil (‘kitap’), çoğul (‘kitaplar’)
Adlarda durum: Türkçe’de yalın (‘kitap’), belirtme (‘kitabı’), yönelme (‘kitaba’), …
Adlarda dilbilgisel cinsiyet: Almanca’da eril (‘der Arzt’), dişil (‘die Ärztin’), …
Eylemlerde zaman: Türkçe’de gelecek (‘okuyacak’), geçmiş (‘okudu’), …
Eylemlerde kişi ve sayı: Türkçe’de birinci tekil (‘aldım’), birinci çoğul (‘aldık’), …

Biçimbilim Özelinde Yorumlanabilirlik Çalışmaları

Bu yazıda ele alacağımız çalışmalar daha önceki yazılarımızda değindiğimiz farklı yorumlanabilirlik yöntemlerini kullanmaktadır. Bunlardan bir tanesi sorgulayıcı sınıflandırıcılardır (probing classifiers). Sorgulayıcı sınıflandırıcıların kullanım amacı büyük dil modellerinin sözcük gömmelerindeki bilgiyi ortaya çıkarmaktır. Bu sınıflandırıcılarla sözcük gömmeleri, dilbilgisel özelliklerine göre sınıflandırılır. Bunun için sınıflandırıcıya bir sözcük gömmesi girdi olarak verilir ve sınıflandırıcı gömmeden yola çıkarak bu gömmenin temsil ettiği sözcüğün dilbilgisel özelliklerini tahmin etmeye çalışır. Bu sınıflandırıcının performansı bize bu bilginin ne kadar başarılı bir şekilde sözcük gömmesinden çıkarılabildiğini gösterir.

Acs vd. (2023) çalışmalarında çokdilli büyük dil modellerinin (multilingual large language models) biçimbilime ilişkin bilgilerini test etmeyi amaçlar. Çokdilli modeller, birden fazla dil verisi ile eğitilmiş modellerdir ve eğitildikleri bütün dillere ilişkin bilgileri öğrenirler. Bu tür modellerden en popülerleri BERT modelinin ve RoBERTa modelinin çokdilli versiyonları mBERT ve XLM-RoBERTa’dır. Bu iki model de yaklaşık 100 dilin verisiyle eğitilmiştir.

Acs vd. (2023), mBERT ve XLM-RoBERTa’nın biçimbilim bilgisini test etmek için 10 dil ailesinden 42 dil için toplam 247 sorgulama testi geliştirir. Bu testlerle sıfat, ad, eylem ve adılların farklı çekimsel özelliklerini test ederler, örneğin, adlar için durum, eylemler için kişi ve zaman, vb. Bu amaçla modellerin sözcük gömmeleri ile her bilgi türü için farklı sınıflandırıcılar eğitilir. Örneğin, Görsel 1’deki gibi adların sayı özellikleri için eğitilen bir sınıflandırıcıdan bir adın tekil mi yoksa çoğul mu olduğunu tahmin etmesi beklenir.

Görsel 1: ‘elma’ ve ‘elmalar’ sözcüklerinin sayı özelliklerine göre sınıflandırılması

Bu iki çokdilli büyük dil modelinin sözcük gömmelerinin performansı, FastText statik sözcük gömmeleri ve Stanza araç seti (toolkit)[1] ile karşılaştırılır. Stanza, birçok dil için oldukça başarılı doğal dil işleme araçları ve öneğitimli modeller sunar. Testlerin sonucunda çokdilli büyük dil modellerinin statik sözcük gömmelerini açık ara farkla geçtiği ve Stanza modellerine yakın performans gösterdiği ortaya çıkmaktadır. Bu önemli bir bulgudur çünkü Stanza modelleri etiketlenmiş dil veriyle, farklı diller için özellikle bu amaçla eğitilmiştir. Çokdilli büyük dil modelleri ise sadece dillere maruz kalarak öğrendikleri bilgi ile Stanza modellerine yakın performans gösterebilmektedir.

Bu yazıda ele alacağımız diğer iki çalışma ise yöntemsel olarak istem (prompt) temelli tanı testlerini kullanmaktadır. İstem temelli testlerde, modele bir istem sunulur ve modelden bu istem doğrultusunda sözcük tahmini yapması beklenir. Araştırmacılar, istem temelli testler aracılığıyla modellerin belirli dilsel bağlamlardaki davranışlarını incelerler.

Hoffmann vd. (2020) istem temelli tanı testi ile İngilizce BERT modelinin sözcük türetimine ilişkin bilgisini ortaya çıkarmayı amaçlar. BERT modeline bir tümce ve bir sözcük verildiğinde modelin, o sözcükten o tümce için uygun bir sözcük türetip türetemediğini araştırırlar. Örneğin, Görsel 2’deki gibi, modele ‘Bu yemek çok doyur__.’ tümcesi verildiğinde modelden boşluk yerine, ‘doyur-’ sözcüğü için uygun ekin üretilmesi beklenir. Bu tümce için doğru türetim ise ‘doyurucu’ olacaktır. Araştırmanın sonuçları, modelin sadece testin %30’u için doğru yanıtı üretebildiğini göstermektedir.

Görsel 2: BERT modelinin türetim eki tahmini

Haley (2020) ise istem temelli tanı testi yöntemi ile büyük dil modellerinin çekim bilgisinin genellebilirliğini araştırır. Haley (2020) çalışmasında insanların biçimbilimsel genelleme kapasitesini ölçen Wug Testi’nden (Berko, 1958) esinlenmiştir. Bu testte konuşuculara bilmedikleri bir sözcük bir tümce içerisinde istem olarak verilir ve bu sözcüğü içeren başka bir tümceyi tamamlamaları istenir. Bu ikinci tümce, sözcüğün belirli bir formda tamamlanması için tasarlanmıştır. Görsel 3’de bilinmeyen sözcüğün çoğul ekiyle tamamlanması için tasarlanan Wug Testi örneği verilmiştir. (“Bu bir wug. Şimdi bir tane daha var. Onlardan iki tane var. İki tane ___ var.”)

Görsel 3: Sayı çekiminin genellenebilirliğinin testi için tasarlanmış Wug Testi

Haley (2020) çalışmasında farklı diller için eğitilmiş BERT modellerinin (Almanca, İngilizce, Fransızca, Felemenkçe ve İspanyolca) özne-eylem uyumuna ilişkin bilgilerinin genellebilirliğini ölçer. Özne-eylem uyumu, bir cümlenin öznesi ile eylemi arasındaki kişi ve sayı açısından uyumu ifade eder. Örneğin, “Ben geliyorum.” cümlesinde özne olan ‘ben’ birinci tekil kişidir ve buna uygun olarak eylemin çekimli hali olan ‘geliyorum’ da birinci tekil kişiye göre çekilmiştir. Daha önceki çalışmalar BERT modelinin bu konuda bilgi sahibi olduğunu göstermektedir (Goldberg, 2019). Haley (2020) ise bu bilginin genellebilirliğini ölçmeyi amaçlar.

Bu amaçla Wug Testi’nden yola çıkarak bu diller için istem temelli tanı testleri tasarlar. Bu testlerde modele istem olarak o dilde var olmayan bir sözcüğü içeren basit bir tümce verilir (‘This is a bik’, ‘Bu bir bik.’). Modelden bu tümceye karşılık ikinci tümcede o sözcüğün çoğul veya tekil halleri için uyumlu eylemler üretmesi beklenir (‘The bik laughs’/‘The biks laugh’, ‘Bik güler.’/‘Bikler gülerler.’). Bu testi aynı zamanda dildeki var olan sözcükler için de yapar. Bu iki durumun karşılaştırılması bize modelin veriyi ezberleme yeteneğinin ötesinde özne-yüklem uyumuna ilişkin çekim özelliklerini bilip bilmediğini, yani bu bilginin genellenebilirliğini gösterir.

Görsel 4: BERT için tasarlanmış özne-eylem uyumunun genellenebilirliğinin testi.

Çalışmanın sonuçları, modelin hem dilde var olan hem de var olmayan sözcükler için çoğunlukla doğru formu ürettiğini göstermektedir. Bu da modellerin özne-yüklem uyumuna ilişkin çekim özelliklerini genelleyebildiklerini gösterir.

Sonuç

Serinin bu yazısında büyük dil modellerinin biçimbilime ilişkin bilgilerini sorgulayan yorumlanabilirlik çalışmalarına değindik. Bu çalışmaların sonucunda hem tek dilli hem de çokdilli büyük dil modellerinin sözcüklerin çekimsel özelliklerine ilişkin bilgiyi sözcük gömmelerinde kodladığını ve bu bilgiyi genelleyebildiklerini ancak türetimin bu modeller için zor olduğunu gördük.

Notlar

[1] https://stanfordnlp.github.io/stanza/

Kaynakça

Acs, J., Hamerlik, E., Schwartz, R., Smith, N. A., & Kornai, A. (2023). Morphosyntactic probing of multilingual BERT models. Natural Language Engineering, 1–40.

Berko, J. (1958). The child’s learning of English morphology. Word, 14(2–3), 150–177.

Goldberg, Y. (2019). Assessing BERT’s syntactic abilities. arXiv preprint arXiv:1901.05287.

Haley, C. (2020). This is a BERT. Now there are several of them. Can they generalize to novel words?. In Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP (pp. 333–341).

Hofmann, V., Pierrehumbert, J. B., & Schütze, H. (2020). DagoBERT: Generating derivational morphology with a pretrained language model. arXiv preprint arXiv:2005.00672.

Kara Kutuyu Yorumlamak: Büyük Dil Modelleri ve Dil Bilgisi — Biçimbilim — Deniz Ekin Yavaş

Written by CogIST