Metin Analitiği Nedir?

Hasan Amanet
alBarakaTech Global
4 min readOct 5, 2020

--

Günümüzde yapay zeka çözümleri her sektörde artarak devam etmektedir. Metin analitiği son yıllarda hızla gelişen bir alan haline geldi ve bu alandaki uygulamalar yapay zeka alanındaki uygulamaların büyük bir bölümünü oluşturmaktadır. Müşteri hizmetlerine gelen müşteri taleplerini işleyen chatbotlar, cep telefonlarımızdaki otomatik yazım denetimi ve Siri gibi AI asistanları metin analitiği alanında geliştirilmiş uygulamalara verebileceğimiz en bilinen örneklerdir.

Her gün kullandığımız bir medya ortamı varsa bu kesinlikle metindir. İster sabah okuduğumuz gazetemiz isterse aldığımız mesajlar olsun, tüm bilgileri muhtemelen metin biçiminde alırsınız. Google (yılda 1 trilyon sorgu), Twitter (günde 1.6 milyar sorgu) ve WhatsApp (günde 30+ milyar mesaj) gibi şirketler tarafından işlenen metin verisi miktarını bir düşünün. Bu veri miktarı dikkate alındığında metin analitiğinin önemli bir konu olduğu anlaşılmaktadır.

Metinsel veriler aynı zamanda büyük ticari değere sahiptir. Şirketler bu verileri müşterilerinin profilini çıkarmaya veya müşteri eğilimlerini anlamaya yardımcı olmak için kullanmaktadır. Bu durum müşterilere daha kişiselleştirilmiş bir deneyim sunmak veya hedefli pazarlama yapmak için bilgi olarak kullanılabilir. Örneğin, Facebook metinsel verileri yoğun bir şekilde kullanır ve Facebook AI ekibinin geliştirdiği bir metin analitiği algoritması vardır.

Metin analitiği, metinden yararlı bilgi toplama tekniği olarak ifade edilebilir. Bu bilgiyi elde etmek için Doğal Dil İşleme (Natural Language Processing), Hesaplamalı Dilbilim (Computational Linguistics) ve sayısal araçlar gibi çeşitli teknikler kullanılır. Sayısal araçlar makine öğrenmesi algoritmaları veya bilgi toplama algoritmalarıdır. Şimdi bu kavramları biraz daha yakından inceleyelim.

Doğal Dil İşleme (NLP), doğal dili işlemek için bir bilgisayarı kullanılmasını ifade eder. NLP çalışmadan önce üzerinde çalışılan dili neyin “doğal” yaptığının anlaşılması gerekmektedir. Doğal diller konuşma, yazı hatta işaretlerde dahil olmak üzere farklı şekilde iletilebilir. Üzerinde çalışılan dille ilgili “Kökeni nedir?, Türkçeyi “Türkçe” yapan şey nedir?, “Yazı” kelimesinin anlamı nasıl ortaya çıktı? İnsanlar dille nasıl iletişim kurallar?” gibi ağır felsefi sorular mevcuttur. Tüm bu sorulara ayrıntılı cevaplar vermek dilin uzmanlarına bırakılması gereken bir iştir. Burada bilinmesi gereken üzerinde çalıştığınız dilin genel yapısına ve kurallarına hakim olmanızdır. Büyük çaplı NLP projelerinde proje ekibinde mutlaka üzerinde çalışılan dilin uzmanları yer almalıdır. Biraz önce sorduğumuz felsefi soruların cevaplarını bilen biri proje boyunca hatalı varsayımlar yapmanızı engelleyecek ve sizi doğru sonuca daha hızlı götürecektir.

Hesaplamamı Dilbilim (CL), adından da anlaşılacağı gibi hesaplamalı bir bakış açısıyla dil bilimin açıklanması olarak ifade edilebilir. Metninizin bir parçasını isim veya fiil olarak işaretlemek bir dil bilim görevidir. Hesaplamalı ifadesiyle anlatılmak istenen bu görevi manuel olarak yapmak yerine bilgisayarı ve algoritmaları kullanarak yapmak anlamına gelmektedir.

Makine Öğrenmesi (Machine Learning), makinelere belirli bir görevi gerçekleştirmeyi öğretmek için istatistiksel algoritmalar kullandığımız çalışma alanıdır. Bu öğrenme verilerle gerçekleşir ve görevi genellikle önceden gözlemlenen verilere dayanarak yeni bir değeri tahmin etmektedir.

Bilgi Erişimi (Information Retrieval), kullanıcı tarafından yapılan bir sorguya dayalı olarak bilgi arama veya alma görevidir. Bu görevi yerine getiren algoritmalara bilgi alma algoritmaları denir. Bilgi Erişimi (IR), metin işlemedeki istatistiksel yaklaşımlara dayanır ve belgeleri sınıflandırmamıza, kümelememize ve bilgileri almamıza imkan tanır.

Metin analitiği bu yaklaşımlar ışığında yapılmaktadır. Şimdi de yapılan metin analitiğiyle ilgili yapılan çalışmaları inceleyelim.

Metin Analiziyle İlgili Yapılan Çalışmalar

Metin analizi aslında uzun süredir vardı. 1958 yılında H.P. Luhn, IBM Journal makalesinde “A Business Intellengence System” tanımında metin analitiğiyle ilgili kavramlara yer vermiştir. O yıllarda sayıların değil de belgelerin hakkında konuşulduğunu görmek çok ilginçtir. Bunun yanı sıra John Hutchins’in metin analizi üzerine 1999 yılında yaptığı incelemede 1950’lerin başlarında Amerika Birleşik Devletleri ordusunun Rus bilimsel dergilerini İngilizceye çevirmek için makine çevirisi yapma üzerine çalıştıklarından bahsetmektedir.

Bunun yanı sıra akıllı bir makine geliştirme çabaları da yine metinle başladı. 1966’da MIT’de Joseph Weizenbaum tarafından geliştirilen ELIZA programı buna bir örnektir. Programın gerçek bir dil anlayışı olmamasına rağmen temel kalıp eşleştirmesi yoluyla bir konuşma yapma isteği uyandırdığı görülüyor.

Bu bahsettiğimiz projeler metni analiz etmeye yönelik yapılan en eski girişimlerden sadece birkaçıdır. Bilgisayarlar ve tabi ki biz insanlar o zamandan bu zamana çok yol kat ettik ve şuan elimizde çok daha güçlü araçlar var.

Son yıllarda özellikle makine çevirisi çok büyük yol kat etti ve artık akıllı telefonlarımızı kullanarak diller arasında etkili bir çeviri yapabiliyoruz. Google’ın Neural Machine Translation gibi son teknoloji tekniklerle çeviri işini yapıyor olması doğal dil işlemenin sağladığı en önemli faydalardan biridir. Bunun yanı sıra videolarda otomatik alt yazı, Apple’ın Siri veya Amazon’un Alexas’ı gibi kişisel asistanlar metin işlemeden büyük ölçüde yararlandı.

NLP’nin başlarında karşılaşılan bir diğer problem “sohbetlerdeki yapıyı anlamak ve bilgi çıkarmaktı” ve yapılan araştırmalar meyvelerini 21. Yüzyılda vermeye başladı. Bu araştırmalar sonuncunda NLP’nin çözdüğü bu problem bize Google ve Bing gibi arama motorlarını kazandırdı. Bu arama motorlarının NLP ve CL alanlarında yapılan araştırmaların omuzlarında durduğunu unutmayın.

Bilgisayarların gücü olmadan metinler üzerinde bu tür büyük ölçekli istatistiksel analizler yapılması mümkün değildir. Modern bilgisayar kullanımının harikalarını bir adım ileri götürürsek hem Python hem NLP’deki son gelişmeler artık bu tür sistemleri kendi başımıza geliştirebileceğimiz anlamına geliyor. Sadece NLP’de ve metin analizinde kullanılan tekniklerde bir değişim olmadı, bu teknikler bizim için daha erişilebilir hala geldi. Açık kaynak paketler ticari araçların yanı sıra son teknoloji ürünü haline geldi.

Tarihsel olarak ticari araçlar ücretsiz, açık kaynaklı yazılımlardan daha iyi performans gösterirken, açık kaynaklı kütüphanelere katkıda bulunan kişi sayısındaki artış ve sağlanan fonlar açık kaynak topluluklarının gelişmesine katkıda bulundu. Son yıllarda bu dengeler değişmiş gibi görünüyor ve birçok yazılım devi, dahili sistemleri için açık kaynaklı paketler kullanıyor. Örneğin, Google TensorFlow ve Apple, scikit-learn kullanıyor. TensorFlow ve scikit-learn, iki açık kaynaklı Python makine öğrenimi paketleridir.

Metin analitiğiyle ilgili çalışma yapmak isteyenler Python ekosisteminin sunduğu çok sayıda paketin olduğunu unutmamalıdır.

Bir sonraki yazımızda metinsel verilerin yapısı ve analiziyle devam edeceğiz.

Kaynaklar
1- Natural Language Processing and Computational Linguistics — Bhargav Srinivasa — Desikan

2- Applied Natural Language Processing with Python — Taweh Beysolow

3- Text Analytics with Python — Dipanjan Sarkar

--

--

Hasan Amanet
alBarakaTech Global

Data Scientist- Analitik Çözüm Tasarımı - Albaraka Tech Global