İlgi Sıralamaları Özelinde LDA (Latent Dirichlet Allocation — Gizli Dirichlet Ayırımı) Olasılıksal Konu Modelleme Algoritması

Müge Akbulut
6 min readJul 18, 2022

--

Olasılıksal konu modelleme yaklaşımlarından birisi olan LDA (Latent Dirichlet Allocation) algoritması bilgi erişim sistemlerinde sorgu-belge, konu-belge, konu-sorgu ve belge-belge benzerliklerinin hesaplanmasına ve dolayısıyla ilgi sıralamaları oluşturulmasına olanak sağlamaktadır (Blei, Ng ve Jordan, 2003; Li ve McCallum, 2006). Konu modelleme sırasında ilgiyi belirleyebilmek için derlemde (collection) yer alan belgeler hem belli bir belgede geçen kelimeler hem de farklı belgelerde geçen kelimeler birlikte geçiş sıklıkları açısından incelenmektedir. Böylece her belgenin bir veya birden fazla konuya ait olabileceği sonucunu veren model oluşturulur ve konu sayısı algoritmaya girdi olarak verildikten sonra LDA tarafından her belge için saptanan konuların olasılık dağılımı elde edilmiş olur. LDA algoritmasının çıktısı, belli konular altında sınıflandırılmış belgeler (documents in topics), bir konu altında sınıflandırılmış kelimeler (topic words) ve belli belgelerde yer alan konular (topics in documents) olmak üzere üç ana sınıftan oluşmaktadır.

LDA algoritması bir makalenin sınırlı sayıda konunun karışımından oluştuğu ve her kelimenin de makalenin konularından birisi ile ilişkilendirilebileceği varsayımına dayanır (Zhang, Luo, Wang ve Liu, 2015). LDA kabaca üç aşamalı bir hiyerarşik Bayes modelidir (Zhang ve diğerleri, 2015). Bayes yaklaşımında parametreler önsel (prior) bir dağılımdan gelen rastsal değişkenler olarak görülmektedir (Alpaydın, 2017, s. 291). Diğer bir deyişle Bayes kuralı, önsel olasılık ve olabilirliği birleştirip sonsal olasılık dağılımını hesaplamamızı sağlar (Chan, 2021; Vorontsov ve Potapenko, 2014). Üç aşamalı modelde çıkarsanan dağılım, yeni bir öngörü dağılımı için girdi olarak kullanılır.

LDA formül

Yukarıdaki formülde eşitliğin sol tarafı modelin olasılık değerini temsil etmektedir. Formülde kelimelerin konular, konuların da makaleler üzerinde olasılık dağılımları yer almaktadır (Blei, 2012, s. 80). M derlemdeki toplam makale sayısı, K toplam konu sayısı, N belli bir makaledeki kelime sayısı, W kelime, Z ise konu’dur. Kelimelerin konulardaki dağılımı φ, konuların makalede bulunma olasılığı ise θ ile temsil edilmektedir. Dirichlet parametreleri de α ve β’dır. Konuların makalelerdeki dağılımını α, kelimelerin konulardaki dağılımını ise β temsil eder (düşük α değeri makalelerin daha az sayıda konu içerdiğini belirtmektedir). Formülde üç ana adım bulunmaktadır (Bkz. Şekil 1). Her adımda olasılık hesaplaması yapılır ve bu üç olasılığın çarpımı modelin olasılık değerini verir. Birinci aşamada her makale için konuların (θ) makalelere dağılma olasılığı (p) hesaplanır. İkinci aşamada Dirichlet dağılımına göre kelimelerin (φ) konulara dağılım olasılığı belirlenir (β). Her makale için o makalede yer alan kelimelerin makalenin konuları ile ne kadar ilişkili olduğunun hesaplandığı üçüncü aşamada ise makalelere konuların atanması iki adımda gerçekleşmektedir. Önce makalede yer alan her kelime geçici olarak rastgele bir konuya atanır ve kelimelerin konulardaki dağılımı verildiğinde belli bir kelimenin o konuya ait olma olasılığı hesaplanır. Ardından da makaledeki kelimeler olasılık dağılımı olarak temsil edilir ve buna göre makalenin konuları belirlenir. Diğer bir deyişle konuların makalelerde bulunma olasılığı verildiğinde belli bir konunun o makaleye ait olma olasılığı belirlenir. Böylece her bir kelimenin belli konularla ilişkili olma olasılığı hesaplanır. Bu işlem tekrarlıdır (iterative). Herhangi bir konu için ulaşılan en yüksek değer bir kelimenin o konuyu temsil edebileceğini gösterir. Kelimelerin konu dağılımı yapıldıktan sonra makale-kelime matrisi oluşturulur. Bu sayede kelimelerin konulardaki ağırlıkları elde edilmiş olur ve makalenin konuları da bu ağırlıklar dikkate alınarak belirlenir.

Konu modellemede belgeler, her konunun kelimelerin dağılımına göre karakterize edildiği gizli konular üzerine rastgele karışımlar olarak temsil edilir (Blei ve diğerleri, 2003, s. 996). Diğer bir deyişle konu modeli, gizli konular aracılığıyla terimler ve belgeler arasındaki ilişkiyi temsil etmektedir. Konu modelleme metinsel verilerdeki gizli anlamsal yapıyı ortaya çıkardığı için belge sınıflama ve ilgi sıralaması oluşturmada da sıklıkla tercih edilmektedir (Wang, Cao, Xu ve Li, 2012). Bu bağlamda konu modelleme amacıyla kullanılan en popüler algoritmalardan biri LDA’dır. Bu algoritmada, ilgiyi belirleyebilmek için derlemde yer alan belgeler hem belli bir belgede geçen terimlerin hem de farklı belgelerde geçen terimlerin birlikte geçiş sıklıkları açısından incelenir. Böylece her belgenin bir veya birden fazla konuya ait olabileceği sonucunu veren model oluşturulur ve her belge için saptanan konuların olasılık dağılımı bulunur (Blei ve diğerleri, 2003; Chang, Gerrish, Wang, Boyd-Graber ve Blei, 2009).

Şekil 1. LDA algoritmasının aşamaları

Ancak LDA algoritmasının bazı dezavantajları da bulunmaktadır. LDA ile tutarlı konular oluşturmak ve güvenilir istatistikler sağlamak için büyük miktarda veriye ihtiyaç duyulmaktadır (Chen ve Liu, 2014, s. 1116; Leydesdorff ve Nerghes, 2017; Nguyen ve Do, 2018; Xie, Liang, Li ve Tan, 2019). Diğer yandan büyük derlemlerde konu sayısı artmakta ve tutarlılık sorunları oluşmaktadır (Hecking ve Leydesdorff, 2018). Bunun dışında terim düzeyinde hesaplama söz konusu olduğu için büyük derlem, çoklu dil, tam metin gibi durumlarda matris boyutu ve dolayısıyla hesaplama süresi ciddi oranda artmaktadır. Ayrıca LDA algoritması kelime torbası (bag of words) yaklaşımına dayalı olduğu için kelimelerin sadece belge içerisindeki konumları dikkate alınmaktadır (Chang ve diğerleri, 2009; Ekinci ve İlhan Omurca, 2020). Dolayısıyla modelde terimlerle ilgili anlamsal bilgi ya da bağlam bilgisi yer almamaktadır. Öte yandan, kelime tabanlı yaklaşımlar farklı alanlardaki özdeş kavramların değişik kullanımlarının neden olduğu belirsizlikten (ambiguity) de etkilenmektedir (bazen “yapay öğrenme” ile “makine öğrenmesi” eş anlamlı olarak kullanılmaktadır). Öte yandan, iki farklı kavram farklı alanlarda aynı adla kullanılabilir (Küçüktunç, Saule, Kaya ve Çatalyürek, 2012, s. 1; Zarrinkalam ve Kahani, 2012). Bu durum ilgili yayınların göz ardı edilmesine ya da listede ilgisiz yayınların yer almasına yol açabilir (Küçüktunç, Saule, Kaya ve Çatalyürek, 2015, s. 2).

Bu makalede LDA algoritması ile ilgili genel bilgi verilmiştir. Yukarıdaki metin “Bilgi Erişimde İlgi Sıralamalarının Artırımlı Olarak Geliştirilmesi” başlıklı tezimden alıntıdır (Akbulut, 2022). İlgili çalışmada LDA konu modelleme algoritması ile elde edilen ilgi sıralamalarının atıf verilerine dayanan pennant erişim teknikleriyle artırımlı olarak geliştirilmiştir. LDA algoritması ile ilgili daha ayrıntılı bilgiye ve 435 bin fizik makalesi üzerinde uyguanan LDA algoritmasının kodlarına tezden erişilebilir.

Kaynakça

Akbulut, M. (2022). Bilgi Erişimde İlgi Sıralamalarının Artırımlı Olarak Geliştirilmesi (Incremental Refinement of Relevance Rankings in Information Retrieval). Yayımlanmamış doktora tezi, Hacettepe Üniversitesi, Ankara. http://www.mugeakbulut.com/yayinlar/Muge_Akbulut_PhD_Tez.pdf

Alpaydın, E. (2017). Yapay öğrenme. Boğaziçi Üniversitesi Yayınevi.

Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84. https://dl.acm.org/doi/pdf/10.1145/2133806.2133826

Blei, D. M., Ng, A. Y. ve Jordan, M. I. (2003). Latent dirichlet allocation. The Journal of Machine Learning Research, 3, 993–1022. https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf?TB_iframe=true&width=370.8&height=658.8

Chan, S. H. (2021). Introduction to probability for data science. Michigan Publishing. https://probability4datascience.com/index.html

Chang, J., Gerrish, S., Wang, C., Boyd-Graber, J. L. ve Blei, D. M. (2009). Reading tea leaves: How humans interpret topic models. Advances in Neural Information Processing Systems içinde (s. 288–296). MIT Press. https://proceedings.neurips.cc/paper/2009/file/f92586a25bb3145facd64ab20fd554ff-Paper.pdf

Chen, Z. ve Liu, B. (2014). Mining topics in documents: Standing on the shoulders of big data. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining içinde (s. 1116–1125). ACM. https://dl.acm.org/doi/pdf/10.1145/2623330.2623622

Ekinci, E. ve İlhan Omurca, S. (2020). Concept-LDA: Incorporating Babelfy into LDA for aspect extraction. Journal of Information Science, 46(3), 406–418. https://doi.org/10.1177/0165551519845854

Hecking, T. ve Leydesdorff, L. (2018). Topic modelling of empirical text corpora: Validity, reliability, and reproducibility in comparison to semantic maps. arXiv. https://arxiv.org/pdf/1806.01045.pdf

Küçüktunç, O., Saule, E., Kaya, K. ve Çatalyürek, Ü. V. (2012). Recommendation on academic networks using direction aware citation analysis. arXiv. https://arxiv.org/pdf/1205.1143.pdf

Küçüktunç, O., Saule, E., Kaya, K. ve Çatalyürek, Ü. V. (2015). Diversifying citation recommendations. ACM Transactions on Intelligent Systems and Technology, 5(4), 1–21. https://doi.org/10.1145/2668106

Leydesdorff, L. ve Nerghes, A. (2017). Co‐word maps and topic modeling: A comparison using small and medium‐sized corpora (N< 1,000). Journal of the Association for Information Science and Technology, 68(4), 1024–1035. https://doi.org/10.1002/asi.23740

Li, W. ve McCallum, A. (2006). Pachinko allocation: DAG-structured mixture models of topic correlations. Proceedings of the 23rd International Conference on Machine Learning içinde (s. 577–584). Springer. https://doi.org/10.1145/1143844.1143917

Nguyen, T. ve Do, P. (2018). CitationLDA++: an extension of LDA for discovering topics in document network. Proceedings of the Ninth International Symposium on Information and Communication Technology içinde (s. 31–37). ACM. https://doi.org/10.1145/3287921.3287930

Vorontsov, K. ve Potapenko, A. (2014). Tutorial on probabilistic topic modeling: Additive regularization for stochastic matrix factorization. International Conference on Analysis of Images, Social Networks and Texts içinde (s. 29–46). Springer. http://www.machinelearning.ru/wiki/images/1/1f/voron14aist.pdf

Wang, Q., Cao, Z., Xu, J. ve Li, H. (2012). Group matrix factorization for scalable topic modeling. Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval içinde (s. 375–384). https://doi.org/10.1145/2348283.2348335

Xie, X., Liang, Y., Li, X. ve Tan, W. (2019). CuLDA_CGS: Solving large-scale LDA problems on GPUs. Proceedings of the 24th Symposium on Principles and Practice of Parallel Programming içinde (s. 435–436). ACM. https://doi.org/10.1145/3293883.3301496

Zarrinkalam, F. ve Kahani, M. (2012). A new metric for measuring relatedness of scientific papers based on non-textual features. Intelligent Information Management, 4(4), 99–107. https://www.scirp.org/pdf/IIM20120400001_98298896.pdf

Zhang, D., Luo, T., Wang, D. ve Liu, R. (2015). Learning from LDA using deep neural networks. arXiv. https://arxiv.org/pdf/1508.01011.pdf

--

--