Gemma2: Yeni Nesil Dil Modeliyle Türkçe Görevlerde Üstün Performans

Tolga Kaplan
Arabam Labs
Published in
5 min readJul 3, 2024
Generated with DALL-E

Son yıllarda yapay zeka ve dil modelleri alanında önemli ilerlemeler kaydedildi. Açık kaynak olarak paylaşılan ve sürekli geliştirilen bu modeller sayesinde, araştırma ve uygulama alanlarında devrim yaratmaya ve daha geniş kitlelere ulaşmaya devam ediyorlar. Özellikle llama3:70B, qwen2:72B, gemma:7B, gemma2:9B ve gemma2:27B modelleri dikkat çekicidir. Bu makalede, bu modellerin teknik detaylarını ve performanslarını inceleyeceğiz ve özellikle Türkçe görevlerdeki başarılarını değerlendireceğiz.

Modeller

Dil modelleri, insan dilinin yapısını ve kullanımını öğrenmek için tasarlanmış yapay zeka sistemleridir. Metin üretimi, özetleme, çeviri, duygu analizi ve soru-cevap sistemleri gibi dil işleme görevlerinde kullanılırlar. Açık kaynaklı dil modelleri genellikle İngilizce’de en iyi performansı gösterir, ancak Türkçe’de istenen performansı almak için fine-tuning gereklidir. Bu çalışmada test edilen modeller, Türkçe verilerle fine-tune edilmemiştir. Yeterli kaynağa sahipseniz, Türkçe veri seti oluşturarak kendi modelinizi eğitebilirsiniz.

Llama 3–70B

  • Geliştirici: Meta AI
  • Parametre Sayısı: 70 milyar
  • Model Boyutu (Ollama): 40 GB
  • Eğitim Verisi: Geniş web veri seti
  • Başarı Alanları: Dil anlama, üretim ve akıl yürütme gibi çeşitli görevlerde yüksek performans

Qwen2–72B

  • Geliştirici: Alibaba
  • Parametre Sayısı: 72 milyar
  • Model Boyutu (Ollama): 45 GB
  • Eğitim Verisi: Web verileri, kitaplar ve diğer kaynaklar dahil çeşitli veri setleri
  • Başarı Alanları: Dil anlama, çok dilli yetenekler, kodlama, matematik ve akıl yürütme

Gemma-7B

  • Geliştirici: Google
  • Parametre Sayısı: 7 milyar
  • Model Boyutu (Ollama): 4 GB
  • Eğitim Verisi: Web verileri ve diğer kaynaklar
  • Başarı Alanları: Çeşitli dil görevlerinde yüksek performans

Gemma2–9B ve Gemma2–27B

  • Geliştirici: Google
  • Parametre Sayıları: Sırasıyla 9 milyar ve 27 milyar
  • Model Boyutu (Ollama): 6 GB ve 15 GB
  • Özellikler: Orijinal Gemma modeline göre geliştirilmiş performans

Mistral 7B

  • Geliştirici: Mistral AI
  • Parametre Sayısı: 7 milyar
  • Model Boyutu (Ollama): 4.1 GB
  • Kullanım Senaryoları: Metin anlama ve oluşturma, kod üretimi, veri çıkarma ve özetleme gibi doğal dil işleme ve dil dönüşümü gerektiren görevlerde üstün performans

Llava-6B

  • Geliştirici: University of Wisconsin-Madison — Microsoft Research
  • Parametre Sayısı: 6 milyar
  • Model Boyutu (Ollama): 3 GB
  • Eğitim Verisi: Web, kitaplar ve diğer kaynaklar dahil çeşitli veri setleri

DeepSeek-10B

  • Geliştirici: DeepSee.ai
  • Parametre Sayısı: 10 milyar
  • Model Boyutu (Ollama): 5 GB
  • Başarı Alanları: Dil anlama ve akıl yürütme görevlerine odaklı

Phi-3-mini

  • Geliştirici: Microsoft
  • Parametre Sayısı: 3.8 milyar
  • Model Boyutu (Ollama): 2.2 GB
  • Bağlam Uzunlukları: 4K ve 128K token seçenekleri mevcut
  • Kullanım Alanı: Düşük gecikme süresi gerektiren ve çevrimdışı çalışması gereken uygulamalar için idealdir. Cihaz üzerinde kullanılmaya uygun olup, hızlı yanıt süreleri sağlar.

Not: Modellerin boyutları ve bilgisayarınızda bulunan ekran kartları alacağınız performanslar konusunda oldukça önemlidir. Örneğin; gemma2:9B (6GB) modelini GPU’da çalıştırmak istiyorsanız, GPU hafızasının bunun için yeterli olması gerekmektedir. Yeterli olmaması durumunda CPU üzerinde çalışacaktır ve bu işlem oldukça uzun sürecektir.

Ollama Platformu: Açık Kaynaklı Modellerle Tanışın!

Ollama, açık kaynaklı modellerin kullanımı ve geliştirilmesi için benzersiz bir platform sunuyor. Kullanıcılar, Ollama üzerinden çeşitli doğal dil işleme (NLP) görevleri için bu modelleri kolayca kullanabilir ve test edebilirler. Kullanıcı dostu arayüzü ve geniş model desteğiyle Ollama, hem yeni başlayanlar hem de uzmanlar için ideal bir kaynak.

Ollama’yı Kullanmak Çok Kolay!

İndirme ve Kurulum:

Ollama’yı bilgisayarınıza indirmek için ollama.com/download adresini ziyaret edin.

Model Kütüphanesi:

Ollama’nın sunduğu geniş model yelpazesine göz atmak için ollama.com/library adresine gidin. Burada çeşitli modelleri keşfedebilir ve test edebilirsiniz.

Model Çalıştırma:

Bir modeli indirmek ve çalıştırmak için komut satırına şu komutu girin:

ollama run gemma

Model Kullanımını Sonlandırma:

Modeli kullanmayı bırakmak için çalışan modele /bye komutunu yazmanız yeterli

Python ile Ollama Kullanımı

Ollama platformu Python üzerinden de kullanılabilir. Aşağıda, Python kodu ile Ollama kütüphanesiyle bir modelin nasıl kullanılacağına dair bir örnek verilmiştir:

import ollama
text = "Verilen cümlede geçen sadece şehir adını tespit et. Cümle: John moved to New York last summer."
messages = [ {"role": "system", "content": "Sana verilen görevleri istenildiği biçimde kurallara uyarak ve kuralların dışına çıkmayarak yerine getiren bir chatbotsun!"}]
messages.append({"role": "user", "content": text})
response = ollama.chat(model='gemma2:9b', messages=messages)
answer = response['message']['content']
# answer: New York

Bu şekilde, Ollama platformu üzerinden farklı dil modelleri ile çeşitli görevler gerçekleştirilebilir ve yüksek doğrulukta sonuçlar elde edilebilirsiniz.

Performans Değerlendirmesi

Arabam.com, Türkiye’nin önde gelen otomobil ilanları ve araç satış platformlarından biridir. Platform, kullanıcıların araç alım ve satım işlemlerini daha güvenilir, kolay ve konforlu hale getirmeyi hedeflemektedir. Her ay 7 milyon kullanıcıya ve 200 milyondan fazla sayfa görüntülemesine sahiptir.

Arabam.com’da ilanlarını yayınlayan kullanıcılar, araçlarıyla ilgili detaylı bilgileri açıklama kısmında paylaşmaktadır. Burada filtrelemeye dahil olmayan bazı spesifik bilgileri de paylaşmaktadırlar. Aşağıda örnek bir ilan açıklama verisi mevcuttur;

“Aracımı 2020'de ilk sahibinden aldım ve otomatik vites olarak satıyorum. 2015 model, 2016 çıkışlı Opel Astra 1.6 Edition, 87.000 km’de ve servis bakımlıdır. Son bakımı 25 Kasım 2023'te 82.000 km’de yapılmış olup, tüm bakımları faturalarıyla kayıtlıdır. Triger seti ve v kayışı Mayıs 2022'de, bobin ve bujiler Temmuz 2023'te, akü Mart 2024'te değiştirilmiştir. Edition paketine ek olarak geri görüş kamerası, park sensörü, deri direksiyon, kol dayama, cam filmi, krom aksesuarlar ve karter koruma mevcuttur. Araçta hata, boya, değişen veya hasar kaydı bulunmamaktadır. Detaylı ekspertiz raporları ve 2024 MTV ödemeleri tamamdır. 2022'de sıfır Pirelli lastikler takılmış ve detaylı temizlik yapılmıştır. Yedek anahtar ve kitapçıklar mevcuttur. Nakit verebileceğim otomatik vites otomobil ve SUV tipi araçlarla takas mümkündür.”

Yukarıdaki oldukça uzun ve karmaşık olan örnek ilan açıklama verisinden filtrelemek istediğimiz bilgileri belirliyoruz. Tespit etmek istediğimiz bu bilgiler için belirli soruları içeren prompt’lar oluşturuyoruz. Bu filtrelemek istediğimiz alanlar ile ilgili bilgiyi tespit edebildiyse “True”, edemediyse “False”, hiçbir bilgi yoksa “None” olarak dönecek bir çıktı hazırlanmasını istiyoruz.

Örneğin;

“Yukarıdaki araç satış ilanını analiz edin ve aracın hatası olup olmadığını belirten bir çıktı sağlayın:

Aşağıdaki kurallara göre bir JSON çıktısı üretin:

  • Eğer araçta hata varsa, {“defect”: True}
  • Eğer araçta hata yoksa, {“defect”: False}
  • Eğer hata durumu hakkında bilgi bulunamıyorsa, {“defect”: None}”

şeklinde bir prompt hazırlanarak istenilen koşula göre cevaplar alınabilir.

Output: {"defect": False}

Aşağıda, Türkçe metin işleme görevlerinde test edilen modellerin başarı oranlarını gösteren bir tablo bulunmaktadır:

Tabloya göre, Gemma2:9B modeli %94 doğruluk oranıyla Türkçe metin işleme görevlerinde en yüksek başarıyı göstermiştir. 1000 veri ile yapılan testlerde, modellerin doğruluk oranları ChatGPT-4o ile karşılaştırılarak belirlenmiştir. Bu sonuçlar, Gemma serisinin Türkçe dil işleme alanındaki üstün performansını vurgulamaktadır.

Sonuç

Arabam.com verileri üzerinde yürüttüğümüz bu çalışmada, Llama3, Qwen2, Gemma, Mistral, Llava, Deepseek ve Phi gibi yapay zeka dil modellerini inceledik. Özellikle, Türkçe metin işleme görevlerinde Gemma:7B ve Gemma2:9B modellerinin gösterdiği yüksek performans dikkat çekici. Küçük boyutlarına rağmen yüksek doğruluk oranları sunan bu modeller, dil işleme alanında yeni ve geniş imkanlar vaat ediyor. Ayrıca, bu modellerin sürekli gelişen ve açık kaynak olarak sunulan yapıları, yapay zeka araştırmalarına önemli katkılar sağlamakta. Ollama platformu ise bu gelişmiş araçların kullanımını ve test edilmesini kolaylaştırarak araştırmacılara ve geliştiricilere değerli bir kaynak sunuyor.

--

--