#sendeanlat hashtag’inde en çok geçen kelimeler

#sendeanlat Tweet’lerinin Kelime Analizi

Alper Tokgöz
Kodumun Dünyası

--

Malumunuz, #sendeanlat hastag’inde kadınlar uğradıkları tacizleri afişe edip, tacize/tecavüze/erkek şiddetine karşı birlikte dayanışma sergiliyorlar. Hashtag’a girip okumaya gönlüm elvermese de, önüme düşen tweet’lerden durumun vehametinin bir kez daha farkına varmış bulunmaktayım.

Çok fazla lafı gevelemeden yazdığım ufak kod parçası ile elde ettiğim sonuçları paylaşmak niyetindeyim.

#sendeanlat hastag’ine girilen tweet’lerin 67.121 tanesini(retweet’ler dahil) kaydettikten sonra gerekli ön-işlemlerden[*] geçirip, kelime sıklıklarına göre sıraladıktan sonra başlığın üzerinde gördüğünüz grafiğin yanı sıra aşağıdaki kelime bulutu grafiğini oluşturdum.

Türkiye’de kadın.

Konuşulan kelimeler çok şaşırtıcı olmamakla birlikte taciz vakalarının genel karakteristiğine ipuçları taşıyor.

  • Örneğin, en sık kullanılan mekan niteleyen kelimeler sırası ile şöyle: Ev, otobüs, burda, minibüs, meydan, köy, hapis…
  • En sık geçen eylemler sırası ile şöyle: Taciz, Laf, takip, yolda/sokakta yürürken, tecavüz, kesmek, anlatmak, yürüyen, gelen, dönerken, okurken, giderken, giyinsem…
  • En sık geçen duygular ise: korku, tedirgin, ürperti, donmak…
  • Bunların yanı sıra, gece, ıssız karanlık gibi kelimeler de kayda değer bir biçimde çok geçiyor.
  • Pek makul bir sıralama olmasa da akrabalık niteleyen kelimeler arasında en çok şu kelimeler geçiyor: baba, amca, dayı, kuzen, enişte.
  • En çok geçen ikili kelime grupları (bigram) ise şöyle: “açılan eteğimi”, “adliyeye sevk”, “adımlarımın hızı”, “ağlamamayı öğreteceğim”…
  • En çok geçen üçlü kelime grupları (trigram) ise şöyle: “Aşağılama, baskılama, sindirme” ; “girilmemesini, öğrettiler, ezilmeyi”…

Gün bitiminde kısaca yaptığım bu analiz daha detaylı sonuçlar yer verecek şekilde genişletilebilir elbet, ancak bugünlük bu kadar benden bu kadar diyorum.

Ülkenin geleceğinin bu günlerden daha iyi olacağına dair ümidimi kaybetmiş değilim, bu tür kitlesel başkaldırılar sağolsun.

  • Bazı çoğul eklerinin atılması, stemming, stop wordlerin ve spam tweetlerin çıkarılması, stemmer’dan kaçan anlamsal olarak aynı olan kelimelerin birleştirilmesi.

--

--