Düzensizlik(Entropy), Çapraz Düzensizlik(Cross-Entropy) ve KL-Iraksaklığı (KL-Divergence)

Emre Yüksel
KaVe
6 min readApr 19, 2020

--

Herkese merhaba ! Bu yazımda beraber entropy, cross-entropy ve KL ıraksaklığı konularını temel düzeyde ve bazı yerlerde örneklere yer vererek inceleyeceğiz. Yazının sonunda bilgi ve entropi kavramlarını, bahsettiğim 3 kavram arasındaki ilişkiyi bir nebze olsun anlamanızı umuyorum. İsterseniz başlayalım !

Entropi kavramını anlamamız için en başta bilgi kavramını anlamamız gerekir. Entropi(düzensizlik), bir olayın veya iletinin içerdiği bilgi miktarıdır. Diğer bir deyişle bir olayın ne kadar sürpriz olduğu olarak ifade de edilebilir. Bilgiyi ise bilgisayarlarımızda bitler halinde depolarız. Bilgiyi depolama işlemini gerçekleştirirken minimum bit sayısı olacak şekilde saklama yapmaya çalışırız çünkü bit sayısının artması demek harcanacak enerjinin de artması demektir. Olayların gerçekleşme olasılığı-içerdiği bilgi miktarını karşılaştırırsak;

→ Düşük olasılıklı gerçekleşen olaylar büyük miktarda bilgi içerirken
→ Yüksek olasılıkla gerçekleşen olaylar az sayıda bilgi içermektedir.

Bir olayın içerdiği bilgi miktarını bulmak için o olayın olasılığını kullanabiliriz. Bunu formülize ettiğimiz zaman aşağıdaki formülü elde ederiz.

p(x): x olayının gerçekleşme olasılığı

İşlemi logaritma 2 tabanında yapmamızın sebebi bilgiyi bilgisayarlarımızda ikili sayı sisteminde (binary digits) göstermemizdir.

Şimdi örneklerle bu kavramları daha iyi anlamaya çalışalım. Elimizde hilesiz bir madeni para olsun. Paramızı yazı-tura oyunu için havaya attığımızda aşağıdaki şekilde bilgileri doldurabiliriz.

Yazı ve tura gelmez olasılıkları eşit ve 1/2'ye eşittir. Bu olayları ifade etmek için gereken bit miktarı 1'dir. Toplam bit sayısı kavramını bir cevaba ulaşmak için sormamız gereken soru sayısı olarak düşünebiliriz. Tekli madeni para için ‘’Para yazı mı geldi ?’’ sorusunu yöneltirsek eğer cevap evet ise yazı geldiğini, hayır ise otomatik olarak tura geldiğini anlamış oluruz. Bu cevaba ulaşmak için gereken maksimum miktarda soru sayısı 1'dir. Olayları göstermek için ise yazı olayını 0, tura olayını 1 ile göstermek mümkündür. Görüldüğü üzere bu olayların gerçekleşme olasılığı eşit olduğundan olaya dahi taşıdıkları bilgi miktarları birbirine eşit ve 2'dir.

Peki madeni paramızın hileli olduğunu varsayalım ve yazı ve tura gelme olasılıkları eşit olmasın. Bu sefer değerlere bakacak olursak;

Yazı gelme olasılığı 0.25 iken tura gelme olasılığı 0.75 imiş. Buradaki gösterimimizi de yine yazı geldiğinde 0, tura geldiğinde 1 olarak gösterdik bu yüzden bit sayımız 1. Hilesiz para örneğinde olduğu gibi burada da tek soru sormak cevaba ulaşmak için yeterlidir. Fakat entropi sonuçlarının farklı geldiğini görüyoruz. Dolayısıyla öncede de bahsettiğimiz gibi düşük olasılıkla gerçekleşen olaylar o olayla alakalı daha büyük miktarda bilgi içerirler.

Bu sefer adil ama 2 adet bağımsız madeni paramız olduğunu düşünelim. Aynı işlemleri yaparsak;

Olayların olasılıklarının aynı olduğunu, bit gösterimlerini görmüş oluyoruz. Burada farklı olan durum toplam bit sayısının 2 olduğudur. Soru-cevap kısmıyla anlamaya çalışırsak ‘’İlk para yazı mı geldi ?’’ sorusunun cevabı ile ilk durumu, ‘’İkinci para yazı mı geldi?’’ sorusunun cevabıyla da ikinci durumu öğrenmiş oluruz. Böylece bu cevapların birleşimi bize çıktıyı verir. Bu cevaba ulaşmak için maksimum sorulması gereken soru miktarı ikidir.
Olasılıklarımız eşit olduğu için içerdikleri bilgi miktarları eşittir.

Olasılıkları farklı olan 4 olayı incelediğimizde;

Burada bit gösterimlerinin ve sayılarının farklı olduğunu görürüz. Burada olaylar 3’e ayrılmış gibi görmeliyiz. Yani p: olayın gerçekleşme olasılığını gösterirse;
P(x1) = P(x2) + P(x3) + P(x4)
P(x2) = P(x3) + P(x4)
olduğunu rahatlıkla görürüz. O zaman ‘’Bizim çıktımız x1 mi ?’’ sorusunun cevabı evet ise gereken cevaba ulaşmış oluruz.(yani toplam bit sayısı 1). Hayır ise bu sefer ‘’Bizim çıktımız x2 mi?’’ sorusunu sormalıyız. Çünkü x2 olayının gerçekleşme olasılığı, x3 ile x4 olaylarının gerçekleşme olaylarının toplamına eşit. Eğer cevap evet ise 2 soruyla cevabımıza ulaşmış oluruz(yani toplam bit sayısı 2). Hayır ise bu sefer de ‘’Bizim çıktımız x3 mü?’’ sorusunu sorarız. Cevap evet ise çıktı x3, hayır ise x4 olduğunu belirtir. Böylece 3 soru sorarak cevaba ulaşmış oluruz ki bu da toplam bit sayısının 3 olduğunu ifade etmektedir.

İçerdikleri bilgi miktarlarına baktığımızda ise gerçekleşme olasılığı düşük olan olayların daha yüksek bilgi içerdiklerini rahatlıkla görebiliriz.

Şimdi, içerdiği bilgi hesaplamasını rastgele bir X değişkeni için yapmak istersek tüm gerçekleşen olaylar üzerinden beklenen bilgiye(expected information) bakmamız gerekir. İşte burada entropi formüllerinden birisi olan ve çok sık kullanılan Shannon Entropi formülünü kullanabiliriz.

Adil olan ve olmayan madeni paralarla yazı tura olaylarının entropilerine bakarsak;

Adil olmayan madeni paraya baktığımızda tura gelme olasılığı daha yüksek olduğundan sonucun tura gelmesi daha muhtemeldir. Yani olaydaki sürprizlik, eşit olasılıklı yazı turaya göre daha düşüktür. Yani entropi daha düşük gelecektir.

Dilerseniz başka bir örneğe bakalım ve diyelim ki P(X) dağılımı Bernoulli dağılımı olsun. 2 ayrı x ve y olaylarının gerçekleştiğini düşünürsek Bernoulli dağılımı altında p(x) = 1 — p(y) diyebiliriz. x olayının gerçekleşme olasılığı p(x) e göre entropi fonksiyonunu görselleştirecek olursak;

Source

İki olayın gerçekleşme olasılığı eşitken (yani p(x)=0=1-p(y) dolayısıyla p(y)=0.5) entropinin maksimum değerini aldığını görüyoruz. Yani entropinin başka bir tanımında yapmak istersek entropi belirsizliğin ölçüsüdür. İki olayın gerçekleşme olasılıkları birbirine eşit olduğundan hangi sonucun geleceği diğer durumlara göre daha belirsizdir ve bu yüzden entropi maksimum değeri alır.

Çapraz Düzensizlik (Cross-Entropy) ve KL Iraksaklığı (KL Divergence)

Cross-Entropy, gerçek olasılık dağılımı P iken bulduğumuz Q olasılık dağılımı için beklenen entropi değerdir. Cross-Entropy formülüne baktığımızda;

Cross-Entropy

Cross-Entropy’i Kullback-Leibler(KL) ıraksaklığını kullanarak da aşağıdaki şekilde gösterebiliriz;

H(p), doğru olasılık dağılımı P’nin entropisidir. P doğru olasılık dağılımını bulmak için bir model kurduğumuzu varsayalım ve bu modelimiz de bize P’ye yaklaşık olan Q olasılık dağılımını versin. İşte bu 2 olasılık dağılımı arasındaki farklılığa bakmak için bir ölçü tanımlamamız gerekir. Cross-Entropy fonksiyonunda gördüğünüz D_kl(p||q) ölçüsü Kullback-Leibler(KL) ıraksaklığıdır.

Kullback-Leibler Iraksaklığı (KL-Divergence)

2 olasılık dağılımı arasındaki farkı ölçen KL ıraksaklığının farklı alanlar için farklı tanımları bulunmaktadır. Makine öğrenmesi alanında P olasılık dağılımı yerine Q olasılık dağılımı kullanılırken elde edilen bilgi kazanım anlamına gelmekteyken, Bayes çıkarımı açısından baktığımızda ise önceki dağılım Q’dan sonraki dağılım P’ye geçerken ki elde edilen bilgi kazanımıdır. Başka bir ifade ile P olasılık dağılımını tahmin ederken Q olasılık dağılımı kullandığımızda kaybettiğimiz bilgi miktarıdır. Formülünü isterseniz olabilirlik oranından beraber elde etmeye çalışalım.

Olabilirlik oranı

x değeri bilinmeyen bir olasılık dağılımından geldiğini varsayalım. Yukarıda gördüğümüz bu olabilirlik oranı bize bu x örneklemi için P dağılımından gelmenin Q dağılımından gelmeye nazaran ne kadar olası olduğunu söylemektedir. Eğer bizim birden fazla bağımsız örneklemimiz varsa ve olabilirlik fonksiyonunu hesaplamak istiyorsak her örneklem için bulduğumuz olabilirlik oranını çarpmamız gerekir. O zaman formülümüz şu hali almaktadır;

İşlem kolaylığı için çarpım sembolünden kurtulmak için yaptığımız işlemin logaritmasını alırsak formülümüz toplam sembolü içerisinde işlem görür ve şu hali alır;

Bu örneklemler için Q dağılımı üzerinde P’ye dair ortalama ne kadar bilgi verdiğini hesaplamak için olabilirlik oranının beklenen değerini alırsak;

Olasılık dağılımları ayrıkken Kullback-Leibler Iraksaklığı

KL ıraksaklığı formülünü yukarıdaki şekliyle elde etmiş oluruz. KL ıraksaklığının 0 olması P ve Q dağılımlarının aynı olduğunu söyler. Yukarıdaki formül P ve Q dağılımları ayrık olasılık dağılımları için kullanılabilir(Örneğin Bernouilli, Poisson, Binom dağılımları).

Olasılık dağılımları sürekliyken KL ıraksaklığı

Eğer olasılık dağılımlarımız sürekliyse formülümüz yukarıdaki gibi integral şeklinde tanımlanır.

Anlattıklarımı bu konulara giriş seviyesinde düşünebilirsiniz. Bu kavramlar makine öğrenmesi, istatistik, akışkanlar mekaniği ve daha birçok alanda çok sık kullanılan konular olduğu için mutlaka daha detaylı çalışmanızı öneririm.

Umarım içeriği istediğim şekilde sizlere aktarabilmişimdir. Okuduğunuz için teşekkürler :) Başka yazımda tekrar görüşmek üzere !

Yararlanılan Kaynaklar

  1. Entropy, Cross Entropy, KL Divergence & Binary Cross Entropy
  2. KL-Divergence

--

--

Emre Yüksel
KaVe
Writer for

Data Scientist @ Getir | Computer Engineering MSc Student @ Bogazici University