Hasan Amanet
alBarakaTech Global
4 min readJan 16, 2021

--

Hayatımızdaki Gizemli Yasa: Zipf Yasası

Doğal dil işleme alanında kelimelerin kullanım sıklıkları, bir kelimenin taşıdığı anlam sayısı, kelimeler arası uzaklıklar gibi çok önemli unsurlar George K. Zipf (1902–1950) tarafından ortaya koyulan kanunlar temel alınarak belirlenmektedir.

Yasalar genelde fizik ve biyoloji gibi doğa bilimlerinde açığa çıkan kesin ya da istatistiksel düzenlerdir. Ancak yasaların sadece doğa bilimlerinde ortaya çıktığını düşünüyorsanız yanılıyorsunuz. Konuşurken veya yazı yazarken kelime adetleri farkında olmasak da Zipf Yasasına uymaktadır.

Zipf yasasına göre bir doğal dilde yazılmış uzun bir eserde geçen kelimeler, azalan sıklığa göre sıralanırsa, bir kelimenin bu eserdeki geçiş adedinin bu sıralamadaki sırasına bölümü sabit bir sayı verir. Diğer bir deyişle genelde ortalama olarak, ikinci en çok kullanılan kelime, en çok kullanılan kelimenin yarısına kadar, en çok kullanılan üçüncü kelime en çok kullanılan kelimenin üçte biri kadar sayıda geçer.

Örneğin, Zipf, James Joyce’un Ulysses romanında 10. en sık kullanılan kelimenin 2653 kere geçtiğini, 100. en sık kullanılan kelime tam bu sayının onda biri kadar yani 265, 200. En sık kullanılan kelime de bu sayının yarısı kadar, ilk sayının ise iki yüzde biri kadar, yani 133 kez tekrarlanmaktadır. En sık kullanılan bininci kelime 26 kere, 10 bininci kelime 2 kere geçmektedir. Tüm örnekler bu yasaya uymaya biliyor ama logoritmik grafiğe oturtulduğunda düz bir çizgi olması da şaşırtıcıdır. Türkçe dahil birçok doğal dilin bu yasaya uyduğu gösterilmektedir.

Zipf Yasanın karşımıza çıktığı farklı sistemler bulunmaktadır. Zipf Yasası’nın başka sistemlerde de ortaya çıkması bu yasanın gizemini ortaya koymaktadır. Mesela 2004 yılında yapılan bir araştırmada dünyadaki şehirler nüfusa göre sıralandığı zaman dünyadaki şehirlerin ortalama olarak Zipf yasasına uyduğu görülmektedir.

2008 yılında Fransız, Brezilya, İngiliz ve Ortaçağ Avrupası’nın mutfaklarına ait tarifler incelendi ve mutfakların hepsinde, en çok kullanılan malzemeden en azına doğru sıralama yapıldığında oluşan tablonun bu yasaya uyduğu görüldü. İnternet siteleri aldıkları trafiğe, depremler büyüklüklerine göre, Ay’daki kraterler yarıçaplarına göre, makaleler aldıkları atıfa göre sıralandığında, kişilerin aldıkları telefon adetleri, savaşlardaki ölen insanların sayısı savaşlara göre sıralandıkları zaman hepsi şaşırtıcı bir şekilde bu gizemli Zipf Yasası’na uymaktadır. Twitter ve Facebook gibi sosyal ağlarda da bu yasaya rastlamak mümkündür.

Zipf yasası Pareto dağılımına dayanmaktadır. Olasılık kuramı ve istatistik bilim dallarında Pareto dağılımı birçok pratik uygulaması bulunan ve “küçük” bir nesnenin bir “büyük” nesneye dağılımında kararlılık elde edildiği hallerde kullanılan bir sürekli olasılık dağılımı veya bir güç kuramıdır. 80–20 oranı adı altında da bilinmektedir.

İş dünyasında satılan ürünlerin %20’si şirket karının %80’ini oluşturur. Trafikte kazaların %80’ine sürücülerin %20’si sebep olur. Her yıl gösterime giren 300 filmden sadece 4 tanesi (yani %1.3’ü) bilet satışlarının %80’ini oluşturur ve örnekler bunun gibi uzayıp gidebilir.

Zipf Yasası birbirimizle iletişim kurma, ticaret yapma ve topluluk oluşturma yöntemlerimizi sağlama bağlayan temel bir toplumsal dinamik kuralın belki de sadece bir yönüdür.

Zipf’in bu konuda sıkça kullanılan 4 kanunu mevcuttur. Yazılı metinlerdeki kelime dağılımı, çeşitliliği, dilin temsili konusunda önemli bir göstergedir. Bu sebeple kullanılan sayı, simge veya kelimelerin miktarı derlemin değerlendirilmesi çalışmalarında yer almaktadır. Bu konuda Zipf “Human Behavior and the Principle of Least Effort” kitabında en az gayret ilkesinin uygulanabileceğini vurgulamıştır. Şimdi bu kanunların matematiksel ifadelerini gösterelim.

Zipf 1. Kanunu:

Bir derlemdeki tüm kelimeler tek tek sayılıp en yüksek sıklığa sahip kelimeden azalan sırada numaralandırıldığında her kelimenin gözlenme sıklığı (frekans, f) ve sıra numarasının çarpımı sabit bir değerdir.

En az gayret ilkesi gereği konuşmacılar birbirinden farklı az sayıda kelime kullanarak farklı kavramları ifade etme isteği duyar. Yani bir kelimenin birden fazla anlamı karşılamasını sağlayarak kelime dağarcıklarını sınırlı tutma istekleri vardır. Dinleyiciler ise her farklı kavram için farklı kelime duymak ve böylece anlama gayretlerini en aza çekmek istemektedir. Bu iki isteğin dengelenmesi sonucu kelimelerin gözlenme sıklığı ve sıra numarası çarpımlarının sabitlenmesi bu kanunun temelidir.

Zipf 2. Kanunu:

i kere rastlanan farklı kelime şekli/biçimi sayısı (V(i,N)) ve bu i sıklığı arasında aşağıdaki denklemdeki şekilde bir ilişki vardır.

Zipf 3. Kanunu:

Bir kelimenin karşıladığı farklı anlam sayısı (w) ile kelimenin gözlenme sıklığının (f) karekökü arasında doğrusal bir ilişki vardır.

Zipf 4. Kanunu:

İçeriği oluşturan kelimeler metin içinde bazı yerlerde yığılım gösterir. Kelimenin metin içerisinde gözlendiği yerlerin araları (I) ile satır veya sayfa cinsinden sıklı (F) arasında aşağıdaki denklemde belirtildiği şekilde bir ilişki vardır.

Nasıl oluyor da dil, şehir nüfusu ya da yemek tariflerinde malzemeler gibi birbiriyle alakasız karmaşık yapılar bu kadar basit bir matematiksel yasaya uyabiliyor? Konuşmak, yazışmak, yemek yapmak bir yere göç etmek nasıl oluyor da anlamlı bir denklemi takip etmektedir? Şuan için bu sorulara net bir cevap verilebilmiş değildir.

Bazıları bu yasayı tamamen istatistikle açıklamaya çalışırken, bazıları da insan zihninin yapısına farklı açıklama ortaya atsa bile, beklenmedik bir anda karşımıza çıkan bu Zipf Yasası gizemini korumaya devam ediyor.

Zipf Yasasıyla ilgili olarak şempanzelerle ilgili ilginç bir çalışma daha bulunmaktadır. Merak edenler linkten inceleyebilir. :)

https://www.bilimma.com/zipf-kanunu-sempanzeler-icin-de-gecerli/

Kaynaklar:

1- Türkçe’de Kullanılan İşlev Kelimelerinin ZİPF 1. Kanunu Esasında Değerlendirilmesi — Senem KUMOVA METİN, Gazi Üniversitesi Müh. Fak. Der. 2008

2- https://www.matematiksel.org/gizemli-bir-yasa-zipf-yasasi/

3- https://www.bilimoloji.com/gizemli-olcu-zipf-yasasi/

--

--

Hasan Amanet
alBarakaTech Global

Data Scientist- Analitik Çözüm Tasarımı - Albaraka Tech Global