Doğal Dil İşleme

Metin Madenciliğinde Makine Öğrenmesinin Uygulanması

Text Mining (Metin Madenciliğinde) Makine Öğrenme Tekniklerini sırası ile hangi türde veriler üzerinden, ne amaçla, hangi adımlarla işlettiğimizi bu yazıda analiz ediyor olacağız.

Onur Dayıbaşı

Published in

Programming / Algorithms & Data Structures

4 min readApr 16, 2018

Organizasyon’un %80 verisi unstructured’dır. Bu veriler web sayfaları, çağrı merkezi arama transcriptleri, anketler, sosyal medya, bloglar, yasal yazışmalar , feedback , forum vb.. oluşmaktadır.

Structured Data: Relational Veritabanında Tutulan Veri.
Semi-Structured Data: JSON, XML vb NoSQL tutulan Veri
Unstructured Data: HTML, PDF, Text, Email vb.. veri..

Şirketler bu nedenle sadece transactional veriyi değil metinsel veriyi de analiz ederek yeni bakış açıları kazanmak ve performansı arttırmak için kullanılır. Bu metinsel içeriği analiz etmenin text mining (metin madenciliği) dir.

Metin Madenciliğinde kullanılan makine öğrenmesi yöntemleri (clustering, classification, association rule ve predictive modeling) ile metnin içeriğinde yer alan ilişkileri ve anlamlar çıkarılmaya çalışılır. Bu bilgiler aşağıda listelenen alanlarda kullanılabilir.

Competitive Intelligence (Rekabetçi Zeka)
Life Sciences (Yaşam Bilimi)
Voice of the customer (Müşterinin Sesi)
Law enforcement (Yasaların uygulanması)
Sentiment Analysis and Trend Spotting (Duygu Analizi ve Trend Gözlemleme/Takip)
Media and Publishing (Medya ve Yayıncılık)
Legal and Tax (Yasa ve Vergi)

Neden Metin Madenciliği Kullanılır ?

Metin madenciliği teknikleri yüksek boyutlu metin içeriklerinden gözle görülmeyecek içeriklerin, ilişkilerin ve örüntülerin çıkartılarak bunların yeni iş fırsatlarında ve süreçlerinde kullanılmasını sağlar. Metin madenciliği zaman ve kaynak tasarrufu sağlar. Süreçler otomatize edilerek metin madenciliği modellerinde elde edilen sonuçlar spesifik problemlerin çözümünde kullanılabilir.

Bu teknikler size aşağıdaki konularda yardımcı olur ;

Büyük hacimli metinsel veriden anahtar konseptler , örüntüleri ve ilişkileri çıkarmamızı sağlar.
Metin içeriklerdeki trendleri gözlemleyerek gezi ve eğlence alanında müşteri duygularını anlamaya çalışır.
Belgelerdeki içeriği özetleyerek basitçe daha anlaşılır bir hale gelmesini sağlar.
Tahminleme analitiklerinde kullanmak için metni indeksler ve arama yapılabilir hale getirir.

Metin Madenciliği İş Akışı ?

Probleminizin tanımı ve spesifik amacınızı belirleyin.
Toplanacak metinleri belirleyin.
Metinleri organize ve düzenleyin. (Tokenization, Stemming, NGram, Stopwords, AlpfaNumerics, etc.. )
Feature Çıkarın. (DF,TF, TF-IDF, DTM, Reoccurence, Phraseness Score, Tags, vb..)
Modelinizi Belirleyin. (Sınıflandırma:Naive-Bayes, SVM, Logistic Regression, Decision Tree, Forrest Tree, LDA vb..) — (Kümeleme: KNearest , KMeans vb..)
Bu modelinizi train/test olarak 2ye böldükten sonra değerlendirme yapın (Precision, Recall, Accuracy, Relevance) ölçün

Semantic Annotation Nedir?

Anlamsal Açıklama (Semantic Annotation) mevcut metinin işlenerek anlamlandırılarak kullanıcıya daha detaylı bilgiler verilebilmesini, belli kelime/kelime öbeklerine kullanıcıya odaklanmasının saglanmasıdır.

Bu işlem nasıl yapılacak peki ?

Text Identification: Unstructured Data’dan html,pdf,image veya video’dan metinlerin çıkarılarak

2. Text Analysis: Metin analizi yaparak buradaki kelime veya kelime öbekleri işaretlenir. Bunun için oluşturulan Sözlük üzerinden kelime veya kelime öbekleri işaretlenir. Buradaki sözlük önceden eğitilmiş corpustaki kelimelerden oluşmuş kelime/kelime öbekleri

3. Concept Extraction: Bu kısımda Name-Entity Recognition dediğimiz kelime veya kelime öbeklerinin kişi, yer, sayı, tarih, para vb şeçilen kelimeleri sınıflandırdığı bu şekle dönüştürüldüğünu görebilirsiniz.