Büyük Dil Modelleri Üzerine Çok Boyutlu Bir İnceleme

Muhammet Ali Dede
Akbank Teknoloji
Published in
7 min readApr 14, 2023

Son 10 yılda makine öğrenmesinin baş döndürücü gelişimine şahit olduk ve etkilerini her alanda hissetmeye başladık. Kişisel asistanlarımızda, otonom araçlarda ve hatta telefonlarımızdaki kamera kalitesinde bile ilerlemelerin bir sonucu olarak makine öğrenimi hayatımızı dönüştürmeye başladı.

Özellikle internete erişimin artması ve veri üretim hızının büyümesi, birikmiş olan verinin daha etkili bir biçimde toplanması ve bu verileri işlemek için kullanılan hesaplama gücünün artması, bu gelişime öncülük etti. Her geçen gün, daha fazla organizasyon makine öğrenmesi tabanlı çözümleri kendi iş akışlarına nasıl uyarlayacakları, daha da önemlisi kendilerinin bu akışa nasıl uyum sağlayacakları hakkında düşünmeye başladı.

Akbank bugüne kadar, teknoloji uyumu konusunda sektörün ve ülkenin öncü organizasyonlarından biri oldu. Teknolojik gelişmelere çevik ve adaptif şekilde uyum sağlayarak tüm etkileşim noktalarında yüksek bir başarı elde etti. Akbank makine öğrenmesi ve yapay zekâ alanında da teknolojiyi ilk kullanan organizasyonlardan biri oldu. Önümüzdeki dönemde de yapay zekâ teknolojilerini doğru kullanarak müşterilerimize en iyi hizmetleri/servisleri sunmaya devam etmeyi hedefliyoruz.

Kendi kaynaklarımız ile geliştirdiğimiz chatbot ve voicebot Türk bankacılık sektöründeki ilk makine öğrenmesi tabanlı sohbet motorlarıdır. Bu uygulamalar, bir taraftan müşteri memnuniyetini arttırırken, diğer taraftan da iş gücünün verimli bir şekilde kullanılmasını sağlamaktadır.

Organizasyonlar teknolojiye son derece hızlı bir şekilde uyumlanıp çözümler geliştirirken teknoloji de büyük bir hızla ilerlemektedir. Geleneksel olarak bilimsel bulguların endüstriye ve kullanıcıya ulaşması 5–10 yıl arasında sürerken; makine öğrenmesi yöntemlerinde bu sürenin 1–2 yıla kadar düştüğünü görüyoruz. Biz Akbank olarak bütün süreçlerimizi değiştirip müşterilerimizle olan bütün etkileşimlerimizi makine öğrenmesi, özellikle de derin öğrenme tabanlı yapay zeka algoritmaları ile zenginleştiriyoruz. Bu değişim/dönüşüm sadece yazılım ve model geliştirmeyi değil, hesaplama altyapısı, insan kaynakları ve problem çözme sanatını da kapsayacak şekilde güçlü ve geniştir.

Bu yazı dizimizde yukarıda bahsettiğimiz konuları göz önüne alarak makine öğrenmesi alanındaki son gelişmeleri, özellikle dil modellerini, bunların geliştirilmesi ve kullanıcılara sunulması ile ilgili çok yönlü bir bakış açısını sunmayı hedefliyoruz.

BÜYÜK DİL MODELLERİ

Büyük Dil Modelleri — BDM (Large Language Models — LLM), metin ve diğer içerikleri tanımlayabilen, özetleyebilen, çevirebilen, tahmin edebilen ve üretebilen üretken makine öğrenimi algoritmalarıdır. Bu modeller genellikle milyarlarca hatta yüz milyarlarca parametreye sahip derin sinir ağlarından oluşur. İnternetten toplanan milyarlarca web sayfası, belge ve kitaplar kullanılarak gözetimsiz olarak eğitilirler. Gözetimsiz eğitimlerde önceden belirlenmiş ve özelleşmiş bir etiket kullanılmaz, kullanılan algoritma, verilere bakarak gizli bir istatistik oluşturmaya çalışır.

Şekil 1: Maskelemeli eğitim. Bu yaklaşımda modeller, verilen kelimelerin tamamına bakarak rastgele maskelenmiş kelimeleri tahmin etmeye çalışır.

Büyük dil modelleri geliştirilirken genellikle tek tip bir gözetimsiz uygulama kullanılmaz. Geliştiriciler, birden fazla alt-algoritma ile modellerini daha iyi eğitmeye çalışırlar. Bu konuda çok fazla sayıda algoritma olmasına rağmen, dil modelleri eğitimi genel olarak iki yöntem üzerine yoğunlaşmıştır. Bunlardan birincisi, iki yönlü eğitim diyebileceğimiz; verilen bir metinden herhangi bir oranda çıkartılmış kelimeleri tahmin etmeye çalışan yöntemdir ki örneğini Şekil 1’de görebilirsiniz.

Şekil 2: Oto Regresif Eğitim Örneği. Bu yaklaşımda model önceki kelime ya da cümlelere bakarak bir sonraki kelime ya da cümleyi tahmin etmeye çalışır.

İkinci yöntemde ise (Şekil 2) modeller, verilen bir cümle ya da kelimeden sonra gelen kelime veya cümleyi tahmin etmeye çalışırlar ki biz bu tarz yöntemler oto-regresif yöntemler olarak adlandırılır. Büyük dil modelleri bu yöntemler sayesinde kelimeleri, kelimelerin birbirleri ile olan ilişkilerini, cümleler arasındaki ilişkileri ve bu cümlelerin arkasındaki kavramları öğrenir. Hatta aynı kelimelerin farklı bağlamlardaki anlamını ve işlevini bile ayırt edebilirler. Bu özellikler sadece büyük dil modelleri için geçerli değildir. Bugüne kadar geliştirilen bütün istatistik tabanlı yaklaşımlar, insan dilinin altında yatan istatistiksel ilişkilerin nasıl daha iyi ifade edilebileceği üzerine geliştirilmiş yaklaşımlardır. Büyük dil modellerini diğer yaklaşımlardan ayırt eden en önemli şey, gerçekten büyük veriler ile eğitilmiş olmalarıdır. Herhangi bir modern dil modeli on milyarlarca sayı ve bu sayıların birbirleriyle olan aritmetiksel ilişkisi olarak düşünülebilir. Burada asıl sorulması gereken, koca bir dilin nasıl bu kadar çok sayıya dönüşebildiği ve daha da önemlisi neden başarılı olduğudur.

Günlük hayatta gördüğünüz, kullandığınız (farkında olarak ya da olmayarak) dil modellerinin neredeyse tamamı en az iki adımda eğitilmiştir. Şekil 3’te gösterildiği üzere, ilk adımda model hedef bir dilde ya da dillerde bulabildiği bütün metinlerin üzerine önceden bahsettiğimiz gözetimsiz yöntemlerden biri ile eğitilir. İkinci adımda ise, modeller özelleşmiş görevlerde gözetimli olarak eğitilir. Bu görevler soru cevaplama, diller arası çevirme, verilen bir metnin özetini çıkarma, bir konu hakkında şiir ya da hikâye yazma bile olabilmektedir. Burada kullanılan gözetimli eğitim, ilk adımda kullanılan eğitimden çok daha az kapsamlı bir eğitimdir ve daha az veri gerektirir. Burada amaç önceden eğitilmiş modelin istenilen bilgiyi kullanıcıya nasıl sunduğu ile ilgilenir. Çünkü ilk eğitimde modelin verdiğimiz her şeyi öğrendiğini düşünüyoruz. (Aslında umut ediyoruz J)

Başka bir şekilde anlatmak gerekirse, ilk adımdaki eğitimde modellerin söz konusu dilin altında yatan bütün istatistiki dağılımı çıkarmasını amaçlıyoruz. İkinci adımda ise modele öğrendiği dağılımı kullanarak istenilen bilgileri nasıl vermesi gerektiğini anlatıyoruz. Örnek vermek gerekirse, özelleşmemiş bir modelin bugüne kadar Calculus hakkında yazılmış her şeyi gördüğünü düşünün. Gördükleri içinde Calculus hakkındaki herhangi bir ders kitabı da var, bir hoca tarafından hazırlanmış ders notları da var, öğrenciler tarafından atılmış ve Calculus’tan nefret ettiklerini beyan eden tweetler de var. Burada özelleştirmenin amacı, modeli ufak ufak “dürterek” bizim beklentimizi karşılayacak dağılımlardan çıkarım yapmasını sağlamaktır.

Şekil 3: İki Adımlı Eğitim. İlk adımda modeller gözetimsiz öğretim ile dil istatistiği öğrenirken ikinci adımda modeller kendilerinden beklenen görevler için gözetimli bir şekilde özelleştirilirler.

Daha önce bahsettiğimiz gibi, günümüz makine öğrenmesinin en büyük itici gücü, inanılmaz boyutlara ulaşan açık veri ve bu veriyi işleyebilmek için kullanabileceğimiz hesaplama gücü yüksek güçlü bilgisayarlardır. İnsan, haklı olarak şu soruyu sorabilir; “5 yıl evvel de güçlü bilgisayarlarımız ve neredeyse şu andakine yakın dijital verimiz vardı. Son 5 yılda değişen şey ne oldu?” Bunun cevabı ise büyük dil modellerinin ve büyük ihtimalle ileride birçok makine öğrenmesi sisteminin kalbinde de yer alan “transformer ağları”. Transformer’lar konusunda teknik detaya girmeyeceğiz çünkü bu yazı dizisinin ruhuna çok da uygun olmadığını düşünüyoruz. Fakat özetlemek gerekirse, geleneksel dil modellerinin aksine transformer’lar paralel çalışmaya uygun ve geleneksel algoritmalarda görülen “unutma ve dikkat” problemlerine daha dayanıklı yapılardır. Yani büyük dil modellerinin arkasında üç ayaklı sacayağı olduğu düşünülebilir; veri, hesaplama gücü ve transformer’lar.

Bütün bahsettiğimiz bu avantajlarına rağmen herhangi bir büyük dil modelini eğitmek ve ölçeklendirmek çok zor bir süreçtir. Herhangi bir numerik optimizasyon algoritmasında görülen bütün problemler burada da karşımıza çıkmaktadır. Bunlara ilaveten, temel bir büyük dil modeli oluşturmak aylarca eğitim süresi ve milyonlarca dolar gerektirebilir ve bu eğitimin sonucunda en iyi dil modelini bulabilmenin bir garantisi de bulunmamaktadır. Bunun için özelleşmiş arama algoritmaları aynı deneyleri farklı parametreler ile onlarca kez tekrar edip en iyi sonucu verecek modeli bulmaya çalışırlar.

Sadece eğitim maliyetleri bile büyük dil modellerini neredeyse ulaşılmaz bir noktaya getirmektedir ki bu maliyetlere; verilerin toplanması için harcanılan zaman ve bu modellerin eğitilmesinde ve yönlendirilmesinde çalışan insan kaynağı dâhil değildir. Eğitim maliyetleri dışında, bu modellerin kullanıma açılması da başlı başına büyük bir finansal maliyet olarak karşımıza çıkmaktadır. Çünkü büyük dil modelleri tıpkı eğitim esnasında olduğu gibi, özelleşmiş ve yüksek kapasiteye sahip donanımlar üzerinde çalışırlar.

Bu nedenle büyük dil modellerinin kullanımı hala sınırlıdır. Ar-Ge, ürünleştirme ve ölçeklendirme için gereken yüksek maliyetler, bu tarz algoritmaların yalnızca birkaç teknoloji şirketi tarafından geliştirilmesine ve kullanılmasına yol açmıştır.

Sözü edilen büyük boyutlarından dolayı dil modelleri farklı endüstrilerde ve farklı amaçlarla kullanılmaktadır. Örneğin, Google’ın BERT’i Google ürünlerinde arama sonuçlarını ve dil anlayışını iyileştirmek için kullanılmışken; herkesin bildiği ve büyük bir popülarite yakalamış olan ChatGPT, OpenAI’nin GPT-3.5 isimli büyük dil modeli üzerine inşa edilmiş ve sohbet botları, dil çevirisi ve içerik oluşturma gibi dil tabanlı uygulamaları geliştirmek için kullanılmıştır. Genellikle, büyük teknoloji şirketleri tarafından işletilen bu modeller için yürütülen araştırma ve geliştirme çalışmalarına önemli bir zaman ve para yatırımı yapılmaktadır.

Büyük dil modelleri;

Sağlık endüstrisinde; tıbbi kayıtlardan bilgi çıkaran ve klinik uzmanlarının daha iyi kararlar vermesine yardımcı olan doğal dil işleme (NLP) algoritmaları geliştirmek için kullanılmaktadır. Örneğin, Mayo Kliniği, elektronik sağlık kayıtlarındaki verileri kullanarak konjestif kalp yetmezliği olan hastaları tanımlayabilen bir NLP algoritması geliştirmiştir.

Hukuk endüstrisinde; yasal belgeleri, sözleşmeleri ve mahkeme kararlarını gözden geçiren ve analiz eden yazılımların geliştirilmesinde kullanılmıştır. Örneğin, bir hukuk teknolojisi şirketi olan Luminance, yasal belgeleri ve sözleşmeleri analiz edebilen, potansiyel riskleri ve tutarsızlıkları belirleyebilen bir makine öğrenimi platformu geliştirmiştir.

Eğitim endüstrisinde; bireysel öğrenci ihtiyaçlarına ve yeteneklerine uyum sağlayabilen kişiselleştirilmiş öğrenme platformları geliştirmek için kullanılmıştır. Örneğin, bir eğitim teknolojisi şirketi olan Carnegie Learning, NLP algoritmalarını kullanarak öğrencilerin performansını analiz edebilen ve özelleştirilmiş geri bildirim ve destek sağlayabilen bir matematik öğrenme platformu geliştirmiştir.

Potansiyel faydalarına rağmen, büyük dil modelleriyle ilişkili riskler de bulunmaktadır ve endişe yaratabilmektedir. Çünkü geliştirilen bu modeller; sahte haberler, derin sahte videolar ve diğer yanıltıcı bilgi formlarını oluşturmak için kullanılabilmektedir. Hatta bu modeller özellikle önyargılı verilerle eğitildiğinde veya özelleştirdiğinde önyargılı ve ayrımcı davranışlar sergilediği de gözlemlenmiştir.

Bu endişeleri ele almak için, araştırmacılar ve politika yapıcılar sorumlu ve etik bir şekilde geliştirilmesi ve uygulanması için yönergeler ve düzenlemeler üzerinde çalışmaktadırlar. Örneğin, teknoloji şirketleri ve kâr amacı gütmeyen kuruluşların bir konsorsiyumu olan “AI PartnerShip”, şeffaflık, adalet ve sorumluluk da dâhil olmak üzere sorumlu yapay zekâ geliştirme ve uygulama ilkelerini belirlemiştir.

Sonuç olarak, büyük dil modelleri sadece endüstri ve uygulamalar için değil yaşadığımız dünyanın her bir anında devrim yapabilecek durumdadır. Ancak birkaç dezavantajı vardır. İlk olarak, çoğu endüstri için büyük dil modelleri geliştirmek ve bakımını yaparak sürekliliğini sağlamak maliyetlidir. İkinci olarak, bu konuda çalışma yürütebilecek eğitimli iş gücü eksikliği göze çarpmaktadır. Son olarak ise, geliştirilen modellerin yanlış veriler veya ince ayarlarla yanıltılabilmesi veya yanıltıcı bilgiler vermeye zorlanması gelmektedir.

Bir sonraki yazımızda dil modellerinden birkaç tanesini inceleyip bu hizmetleri sunan büyük kurumlardan bahsedeceğiz.

--

--