HuggingFace Türkçe Veri Kümeleri

“Dataset is power”!

Yavuz Kömeçoğlu
Kodiks
2 min readJul 14, 2021

--

2020'nin Aralık ayında HuggingFace Datasets Kütüphanesine yeni veri kümelerini entegre etme maratonuna biz de katıldık.

Bu maraton kapsamında Başak Buluz Kömeçoğlu ile birlikte 6 yeni Türkçe veri kümesi ekleyerek katkı verdik.

🔶 İnterpress Türkçe Haber Kategori Veri Kümesi (270bin)

İnterpress medya takip şirketi tarafından 2010–2017 yılları arasında yazılı basın ve haber sitelerinden derlenen, 17 kategoride 273.601 adet haberden oluşan Türkçe haber veri kümesidir.

🔶 İnterpress Türkçe Haber Kategori Veri Kümesi (270bin — Lite Versiyon)

Bu veri kümesi yukarıdaki veri kümesinin kolay ayrıştırılabilir ve daha az sınıflı olarak 10 kategoride (“kültürsanat”, “ekonomi”, “siyaset”, “eğitim”, “dünya”, “spor”, “teknoloji”, “magazin”, “sağlık”, “gündem”) yeniden düzenlenmiştir.

Türkçe Haber Kategori Sınıflandırma Yapay Öğrenme Modeli Eğitme

HuggingFace datasets içerisindeki veri kümelerinin nasıl kullandığını, İnterpress Türkçe Haber Kategori Veri Kümesi’nin detaylarını ve Türkçe haber kategorilerini sınıflandıran bir yapay öğrenme modelinin nasıl eğitileceğini Serdar Akyol’un teknik blog yazısından öğrenebilirsiniz.

Diğer yeni eklediğimiz veri kümeleri;

🔶 Turkish Movie Sentiment

Bu veri kümesi Mustafa Keskin tarafından hazırlanmış, Türk film incelemelerinden oluşan ve 0–5 arasında puanlanan bir kaggle veri kümesidir.

🔶 Turkish Product Reviews

Fatih Barmanbay tarafından düzenlenen Türkçe ürün yorumları veri kümesi, çevrimiçi olarak toplanan 235.165 ürün incelemesini içermektedir. Veri kümesinin içeriği 220.284 olumlu ve 14.881 olumsuz yorumdan oluşmaktadır.

🔶 TTC4900: Türkçe Metin Sınıflandırma için Bir Benchmark Verisi

Bu veri kümesi Yıldız Teknik Üniversitesi Kemik Doğal Dil İşleme Grubu’ndan alınmıştır.

Veriler Savaş Yıldırım hoca tarafından yapılan aşağıdaki çalışma ile metin sınıflandırma problemi için işleme tabi tutulmuştur.

Yildirim, S. (2014, April). A knowledge-poor approach to Turkish text categorization. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 428–440). Springer, Berlin, Heidelberg.

🔶 OffensEval-TR 2020

Bu veri kümesi, sosyal medyada Türkçe saldırgan (rahatsız edici) dil sınıflandırması için Çağrı Çöltekin tarafından bir korpustan oluşuyor.

Huggingface Datasets Github reposundaki yeni veri kümesi ekleme yönergelerini takip ederek sizler de katkı verebilirsiniz.

--

--

Yavuz Kömeçoğlu
Kodiks

🇹🇷 Machine Learning R&D Engineer @KodiksBilisim | Deep Learning Enthusiast | http://yavuzkomecoglu.com/