İstatistik ile Nasıl Yalan Söylenir?

Canberk İleri
KaVe
Published in
4 min readApr 25, 2021

--

Yazımız başlığını orijinal adı “How to Lie with Statistics” olan kitaptan alıyor. Darrel Huff tarafından 1954 yılında yayımlanmış olan kitap, yazıldığı dönemde popüler olmuş ve 60'lardan sonra üniversitelerde, kolejlerde istatistiğe giriş kitabı olarak standart haline gelmiştir. Popüperliğini uzun yıllar sürdürerek 20. yüzyılın en çok okunan istatistik kitabı olmayı başarmıştır.

Bir İstatistik ders kitabı haline gelmiş olmasına rağmen İstatistik ile Nasıl Yalan Söylenir’in teknik bir kitap olduğu söylenemez. Zaten Darrel Huff da bir istatistikçi değil; bir yazar ve gazeteci. Ancak bir ders kitabı haline gelmesi de boşuna değil. Huff’ın gazetecilikten gelen bir yazar olmasının da katkısıyla olsa gerek, istatistiğin nasıl yanıltıcı etkiler bırakabileceği iyi seçilmiş örneklerle anlatılmış. Bu örnekler ise çoğunlukla reklamlar ve gazete haberlerinden/ilanlarından seçilmiş. Kitap 10 bölümden oluşuyor; sırasıyla: Saptırımlı Örnekleme, Doğru Seçilmiş Ortalama, Kaybolan Küçük Sayılar, Hiç Uğruna Kuru Gürültü, Hokus Pokus Grafikleri, Tek Boyutlu Resim, Eğreti Rakamlar, Post-Hoc Yine Doludizgin, İstatistikbazlık, Bir İstatistiği Sorgulamak.

İlk bölüm rastgele örneklem almanın ve bunu, sonuçları istediğimiz gibi göstermek için nasıl kullanılabileceğimize odaklanıyor. Doğru Seçilmiş Ortalama bölümü, ortalamanın türlerinden, medyan, mod gibi kavramların ne ifade ettiğinden ve ortalama ifadesinin bizi nasıl yanıltabileceğinden bahsediyor. Üçüncü bölüm, bilgi verilirken gizlenen sayılardan bahsediyor ve sayıların ifade biçimlerinin, belki de hiçbir anlam ifade etmeyen sayıların nasıl anlamlıymış gibi sunulduğunu gösteriyor. Sonraki bölüm, ortalamalara dayanarak çıkarımda bulunurken bu ortalamaya dair bir aralık vermenin gerekliliğinden bahsediyor. Hokus Pokus Grafikleri ve Tek Boyutlu Resim bölümleri, grafiklerin nasıl kesilip biçilerek ya da simgelerle ifade edilerek değiştirilebileceğine odaklanıyor. Eğreti Rakamlar bölümü, alakasız kıyaslamalar ile bambaşka sonuçlar elde edilebileceğini gösteriyor. Sekizinci bölüm olan Post-Hoc Yine Doludizgin, korelasyonun neden-sonuç ilişkisi içermek zorunda olmadığını ve bu bağlamda gözardı edilen şeyleri anlatıyor. İstatistikbazlık bölümü gelir, gider, zam ve indirim konusundaki hesaplamalarda dönen istatistiksel dalavereleri konu ediniyor. Son bölümde ise bir istatistiki bilgi okurken nasıl yaklaşmamız gerektiğine dair ufak ipuçlarına değiniyor.

Kitabın şu an bulunabilen baskısı 2019'un ilk ayında Urzeni Yayınevi tarafından yayımlanmış. Kitabı her ne kadar okumanızı tavsiye etsem de bu baskının birçok yazım hatası ve okunmayan grafik içermesinden ötürü, pek özenli bir baskı olduğunu söyleyemeyeceğim. Daha önce Sarmal Yayınları tarafından iki farklı baskısı yapılmış ancak bunları inceleme fırsatım olmadı. Denk gelirse bu baskısını da inceleyin ve mümkünse orijinal dilindeki düzgün bir baskısından okumaya çalışın.

İstatistik bilincini ve okuryazarlığı arttırması yönüyle kitabı hemen herkes okuyabilir. Okunması kolay, az sayfalı, bir günde bitirilebilecek bir kitap. Özellikle lise çağındaki ve hem sosyal bilimler hem de fen bilimleri alanında üniversiteye yeni başlamış öğrenciler için faydalı bir istatistiğe giriş kitabı olacaktır. Yazının geri kalanında kitaptaki birkaç örneğin görselleştirilmiş hallerini kodlarıyla birlikte bulabileceksiniz.

  • Huff, emlakçıların taktiklerinden bir örnek vermiş. İnsanlar ev satın alacaklarında ya da kiralayacaklarında evin hangi semtte olduğuna önem verirler. Semtin sosyokültürel seviyesi ile gelir seviyesi de korelasyon içerisindedir. Bu nedenle emlakçılar, o bölgede yaşan insanların gelir seviyesini bir gösterge olarak sunarak evi pazarlar. Huff’ın örneğinde emlakçı bölgedeki ortalama gelirin 10000 dolar olduğunu söylüyor. Söylediği müşteri doğal olarak bölgede yaşayan insanların çoğunun 10000 dolarlık gelir seviyesinde olduğunu düşünüyor. Ancak bu bir aldatmaca. Bölgede yaşayan ve kendi mülklerine çekilmiş olan birkaç milyonerin gelir seviyesini ortalamada çok yukarı taşıması nedeniyle, aslında bölgede yaşayan insanların çoğu 3000 dolar gelir seviyesine sahip. Peki bu durumda ne yapmalıyız? Gerçekten fikir vermesi için emlakçının mod bilgisini vermesi gerekiyordu. Daha da doğrusu insanların yüzde kaçının bu ortalamanın altında ve üstünde olduğunu söylemesi gerekiyordu.

Yukarıda Huff’ın anlattığına yakın olması için bir örnek kurguladık. Bu kurguda 10 bin kişilik bir mahallede, gelirleri 2 bin ile 12 bin dolar arasında değişen 9990 kişi yaşarken; gelirleri 1 milyon ile 10 milyon dolar arasında değişen 10 milyoner oturuyor. Emlakçı bize ortalama gelirin 10–12 bin dolar olduğunu söylese de görüyoruz ki aslında bu topluluğun modu 7000 doların altında ve mahalle sakinlerinin yalnızca 672'si yani %6.72'si bize söylenen ortalamanın üstünde gelire sahip. %93.28 bize bu ortalamanın üstünde yaşayan insanların yüzdesini verirken [3] ile işaretli tabloda 50%’nin altında yazan değer bize modu gösteriyor.

  • Anket yapmak veri toplamanın en eski ve geleneksel yöntemlerinden biri. Ancak insanların doğruyu söylememesinden tutun, hedeflenen bireylerin es geçilmesi ihtimaline dek birçok problemi de içinde barındırıyor. Ayrıca artniyetliyseniz size anket yaptıranları memnun edecek şekilde sonuç alana dek örneklem almaya devam edebilirsiniz. Tahminleriniz yanlış çıktığında ise elinizdeki verileri gösterip kendinizi kolaylıkla sorumluluktan muaf tutabilirsiniz. Bir önceki örnekte oluşturduğumuz, gelir otalaması 11244 olan topluluk üzerindeki hedefimiz ortalama gelirin 18 binin üzerinde olduğunu göstermek ise işimiz kolay. 500 örneklem büyüklüğünde 5 küme oluşturursak sonuçlar aşağıdaki gibi olabilir, 4 numaralı listeyi seçeriz ve işimiz biter.
  • Şirketler bilançolarını gösterirken, grafiklerle oynama yoluna sıklıkla giderler. Bunu hem çalışanlarına iyi maaş verdiklerini göstermek, elde ettikleri karları çalışanlarıyla paylaştıklarına ikna etmek için hem de yatırımcılara daha elverişli gözükmek için yapabilirler. Şirketlerin açıkladıkları veriler gerçekten başarılı olduklarını gösteriyor olsa bile, grafiklerde uygulanan bazı taktiklerin yanıltmaya yönelik olduğu gerçeği değişmiyor. Aşağıda bir şirketin 5 yıllık süreçte cirosunu ne kadar arttırdığını, verileri değiştirmeden farklı gösterimlerle görselleştirdik.

--

--

Canberk İleri
KaVe
Writer for

Software Engineer, Math and DS/ML Enthusiast