Makine öğrenmesi temelde bu iki grupa göre ayrılır. Supervised(Gözetimli) ve Unsupervised(Gözetimsiz) öğrenme
Aşağıda Metin Madenciliği ile ilgili klasik yöntemler bulunmakta. Bu işlemlerde geçen kavramların neler olduğunu anlatmaya çalışacağım.
TD-IDF, bir terimin doküman içerisindeki önemini gösteren istatistiki yöntem ile hesaplanmış ağırlık faktörüdür.
Peki bunun bize ne gibi bir faydası olacak ? Bu değeri nerelerde kullanabiliriz ?
Belgeler ve dokümanlar üzerine çalışmaya devam ediyoruz. Bu dokümanda belgeler üzerinde sürekli olarak karşıma çıkan Bag Of Word kavramı ile ilişkili bazı kavramlarıda anlatmaya çalışacağım. BOW (Bag Of Words), CBOW(Continues Bag Of Words), Skip-Gram, Word Vectors,
Metin analizinde VSM(Vector Space Model) ‘de metin/belgelerin bu vektör uzay modelinde nasıl vektörler ile gösterildiğini anlatmıştık. Burada Bag Of Words bu vector scoring işleminin nasıl yapıldığından biraz bahsetmiştik.
Metin dokümanlarının vektörler ile ifade edildiği bir uzay düşünün. Bu sayede;
These were the top 10 stories published by Programming / Algorithms & Data Structures; you can also dive into yearly archives: 2015, 2016, 2017, 2018, 2021, 2022, and 2023.