📚Makale okumaları — volm.1

Başak Buluz Kömeçoğlu
Başak Buluz
Published in
6 min readMay 11, 2020

Exploring Emoji Usage and Prediction Through a Temporal Variation Lens

Temporal Varyasyon Lensi İle Emoji Kullanımını ve Tahminini Keşfetme

Sosyal medya hesaplarımızda paylaşımlar yaparken veya anlık mesajlaşma uygulamalarımızda eşimizle dostumuzla iletişim kurarken emoji kullanmayanımız var mı ❓ Emojiler yazılı iletişimde duygularımızı göstermenin etkili yollarından biri. Peki ya bu emojilerin hangilerini, ne zaman sık kullandığınızı hiç düşünmüş müydünüz 🧐 Dahası bu zaman bilgisinin, emojilerin anlamlandırılmasında etkili olabileceği fikri oldukça ilginç değil mi 🤩

Photo by Lidya Nada on Unsplash

Noel baba emojisinin 🎅🏻 Christmas dönemi, sahildeki şemsiye emojisinin🏖️ yazın daha sık kullanılması aslında bu noktada kolayca görülen bir bağıntı. Diğer taraftan, 4 yapraklı yonca emojisinin 🍀 genellikle iyi şans dilekleri için kullanılması tanıdık bir bilgi iken, Mart aylarında St. Patrick’s Day sebebiyle yeme, içmeye işaret etmesi gibi dolaylı bağıntılar da aslında bu öngörüyü destekler nitelikte.

E o zaman , “Herhangi bir temporal bilgiyle sahip olmayan 💪 gibi emojilerin tahminlenmesinde ve anlamlandırılmasında da, zaman bilgisinin olumlu etkisi olamaz mı❓ “ sorusu ile yola çıkılan ve ilk kez bu bakış açısına sahip, 2018 yılında Francesco Barbieri, Luís Marujo, Pradeep Karuturi, William Brendel ve Horacio Saggion tarafından yayınlanan “Exploring Emoji Usage and Prediction Through a Temporal Variation Lens” isimli çalışmayı birlikte ele alalım ✌🏻

Çalışmada, emoji kullanımı ile yıl içerisindeki olaylar arasındaki zamansal korelasyon incelenerek, bu zaman bilgisinin emoji anlamlandırılmasındaki belirsizlikler konusunda yardımcı olabileceği öngörülmüştür⏳

⚡ Veri Kümeleri

Çalışma kapsamında Ekim 2015'ten Kasım 2017'ye kadar yalnızca ABD’den paylaşılan 100 milyondan fazla İngilizce tweetten oluşan bir korpus toparlanmış ve bu korpustan 2 ayrı veri kümesi tasarlanmıştır.

🎨 Seasonal Emoji Veri Kümesi

Farklı mevsimlerde emoji kullanımındaki farklılıkları incelemek için korpus, tweetlerin atıldıkları mevsimlere göre dört alt gruba ayrılmıştır. Bu kategorilendirme sonucunda 😂 , ❤️ ve 😍 emojilerinin her zaman çok sık kullanılırken; bazı emojilerin ise mevsime spesifik kullanımının oldukça arttığı görülmüştür, örneğin; sonbaharda 🎃 , kışın ❄️ve 🎄, yazın ve ilkbaharda ise☀️ .

Mevsimlere göre en sık kullanılan 15 emoji

🎨 Large Scale Emoji Tahminleme Veri Kümesi

Başlangıçta oluşturulan korpus içerisindeki tweetler arasından yalnızca tek emoji içerenler ayıklanmış ve bu emoji eğer en sık kullanılan 300 emojiden biri ise o tweet saklanmıştır. Böylece finalde oluşturulan Large Scale Emoji Tahminleme Veri Kümesi 300 sınıf ve her bir sınıfta 3.000 tweet olmak üzere, toplamda 900.000 tweet içermektedir.

⚡ Emojilerin kullanımı ve semantiği mevsimlere göre değişir mi❓

Subjektif doğası gereği emojilerin semantiğinin anlaşılması oldukça zorlu bir konu. Burada zaman bilgisinin kullanılması ise oldukça yaratıcı bir fikir 💡

Birbirine anlamsal olarak yakın olan emojilerin birlikte sıklıkla kullanıldığı varsayımı olan bir yaklaşım benimsenmiştir. Bu kapsamda, Skip-gram kelime gömme modelleri Seasonal Emoji Veri Kümesinin 4 alt kümesi kullanılarak eğitilmiş ve bu gömmeler temel olarak emojileri birbirlerine anlamsal benzerlikleri açısından tarif etmeye yardımcı bilgileri oluşturmuştur. Ardından, emojinin semantiği, her mevsim için o emojinin en yakın komşuları (k-NN / k=10)ile birlikte tanımlanarak oluşturulmuştur.

Her bir emojinin farklı modeller için 10 en yakın komşusundan kaçıyla örtüşüp örtüşmediği incelenmiştir. Böylelikle, belirli bir emojinin farklı mevsimlerde aynı komşuluk kümesini paylaşıp paylaşmadığını görebiliyoruz ve dolayısıyla bu emojinin mevsimler boyunca anlamını koruyup korumadığını da anlayabiliyoruz. Ayrıca, yıl boyunca daha küçük anlam farklılıkları olan emojileri bulmak içinde, tüm mevsimlerde çakışan komşuların sayısı da ölçülmüş ve sonuçları gösterilmiştir.

Diğer taraftan, her model için, aynı tweet içerisinde görülen emoji çiftlerinin anlamsal korelasyonunu kodlayan bir korelasyon matrisi oluşturulmuştur. Daha sonra korelasyon istatistiklerinin farklı mevsimlerde korunup korunmadığını görmek için dört matris karşılaştırılmıştır 🙌🏻

🔴 En Yakın Komşuluk ile Anlamlandırma Yaklaşımında Dikkat Çeken Sonuçlar

Tablo-2' nin üst kısmında bulunan emojilerin mevsimsellikten etkilenmediği ve dört mevsimde de aynı komşuluk kümesine ait olduğunu görebiliyoruz. Mevsimlere göre en fazla değişim gösteren emojiler ise tablonun alt kısmında listelenenlerdir. 🏀 ve 🏆gibi sporla ilişkili emojiler spor etkinliklerinin gerçekleştirildiği periyotlarda, kep emojisi 🎓 ise okulların mezuniyet dönemlerinde sıklıkla komşularıyla bir arada kullanılırken, diğer dönemlerde farklı emojilerle birlikte kullanılarak bir anlamda farklı manalarda kullanılmaktadırlar.

Bir diğer ilgi çekici ise çam ağacı emojisine 🌲 aittir ve sonuçları Tablo 3'de gösterilmiştir. Bu emoji ilkbahar ve yaz aylarında bitki örtüsü, kamp ve gündoğumu ile ilgili emojilerle, sonbahar ve kış aylarında ise Noel ile ilişkin emojilerle birlikte sıklıkla kullanılmıştır.

🔴 Emoji Korelasyonu ve Dikkat Çeken Sonuçları

Emoji çiftlerinin farklı mevsimlerde anlamsal olarak nasıl korunduğunun değerlendirildiği bölümdür. Burada, her bir mevsim için, emoji çiftlerinin korelasyonlarının mevsim modelinden çıkarılan 300 boyutlu özellik vektörleri arasındaki kosinüs benzerliği olarak hesaplandığı, bir 300x300'lük bir korelasyon matrisi oluşturulmuştur.

İkinci adım olarak, mevsim çiftlerinin matrisleri arasında Pearson korelasyonu hesaplanarak bir karşılaştırma yapılmıştır. Bu karşılaştırmaya göre en yakın 2 mevsim İlkbahar-Yaz iken, en uzak iki mevsim İlkbahar-Kış olarak belirlenmiştir. Ancak yine de tüm matrislerin yüksek oranda ilişkili olduğu gözlenmiştir ve bu da sadece küçük bir emoji alt kümesinin anlamsal olarak mevsimlere bağlı olarak değiştiğini göstermektedir.

⚡ Emoji tahminlemesinde zaman bilgisinin etkisi

Emoji tahminlemesi görevinde Large Scale Emoji Tahminleme Veri Kümesi kullanılmıştır ve bu veri kümesinde 300 emoji sınıfının her birine ait 3.000 tweet barındırmaktadır.

Mimarisi aşağıdaki figürde gösterildiği üzere; karakter ve kelime gömmeleri ile birlikte zaman bilgisinin etkisinin ölçülmesi amacıyla erken ve geç beslemeli olmak üzere 2 ayrı şekilde tarih gömmeleri de sisteme girdi olarak verilmiştir.

Tarih gömmeleri ay, gün ve saat bilgisini içecek şekilde 3 boyutlu olarak oluşturulmuştur. Erken beslemede Word LSTM öncesinde; geç besleme de ise Word Attention biriminin çıktısına bitiştirilerek sisteme dahil edilmiştir.

⚡ Sonuçlar

Farklı zaman dilimlerinde emojilerin anlamsal olarak farklılaştığının gösterildiği bu çalışma, aynı zamanda emoji tahmini görevinde zaman bilgisinin kullanılması yönünde bir ilk olması yönüyle de önem taşımaktadır.

Tahminleme görevinde zaman bilgisi ile erken besleme (early), geri besleme (late)ve zaman bilgisi olmaksızın (W/O)elde edilen sonuçlar kesinlik (precision), duyarlılık (recall) ve F1 skorları ile değerlendirilmiştir. Sonuçlar irdelendiğinde, erken besleme ile tarih bilgisinin modele girdi olarak verilmesi ile en iyi sonuçlar elde edildiği görülmüştür.

Diğer taraftan tarih bilgisi eklendiğinde F1 skoru cinsinden en büyük kazanç sağlanan emojiler incelenmiş ve aşağıdaki tabloda verilmiştir.

Tablodaki emojilerden 🌙 ve 🏖️ gibi bazıları zaten anlamsal olarak zaman bilgisi içerirler ve bu emojilerin tahminlenmesinde zaman bilgisinin faydalı olabileceği tahmin edilmesi güç bir sonuç değildir. Ancak 💪🏻, ⚠️ gibi zaman bilgisi ile ilintili olmayan bazı emojilerinde bu tabloda yer alıyor olması, anlamsal olarak emojilerin ifade edilmesinde zaman bilgisinin etkili olabileceğini destekleyen bir argüman olarak görülmektedir.

💎 Doğal Dil İşleme alanında yapılan yenilikçi çalışmalardan incelediklerimi paylaşacağım bir seriye başlıyorum ve bu serinin ilk ürünü olarak da “Exploring Emoji Usage and Prediction Through a Temporal Variation Lens” çalışmasını sizlere anlatmaya çalıştım.

Umarım incelediğim ve paylaştığım bu çalışmalar, sizler için de araştırmalarınız için fikir tohumları ekmenize veya konuya olan ilginizin artmasına vesile olur 🤗

Keyifli okumalar ☕

🌼 Değerli yorumları ve katkıları için Ayyüce Kızrak ve Yavuz Kömeçoğlu’na özel teşekkürlerimle..

Kaynak:

  1. Barbieri, F., Marujo, L., Karuturi, P., Brendel, W., & Saggion, H. (2018). Exploring emoji usage and prediction through a temporal variation lens. arXiv preprint arXiv:1805.00731.

--

--

Başak Buluz Kömeçoğlu
Başak Buluz

Research Assistant at Information Technologies Institute of Gebze Technical University | Phd Candidate at Gebze Technical University