Corona Günlerinin Veri ile İmtihanı
Çin’de başlayan corona salgını, Avrupa merkezli yayılmaya evrildiğinde insanoğlunun bu mikroorganizmaya (bazı görüşlere göre buna canlı bile denmiyor) karşı verdiği savaş iki cepheye yayıldı.
- Enfekte olmuş hastaları izole edip, tedavi etmek.
- Yeni hastaların ortaya çıkmasını engellemek.
Tedavisi, aşısı olmayan bir hastalığa karşı nasıl önlem alabilirsiniz? Tabi ki veriye dayalı analiz ile geleceği tahmin etmeye çalışarak. Aslında tüm mesela tek bir grafik üzerine yoğunlaşıyor…👇
Ülkenin sağlık hizmeti kapasitesi oranında ortaya çıkan vaka sayısı, hem virüsün yayılmasını engelleyecek hem de hastaların bakımını kolaylaştıracaktır. Yani hasta sayısının en uç boyuta ulaştığı (top) durumda sağlık kapasitesi eğrisinin altında kalmak çok önemli. Bu da vatandaşların yüreğine su serpiyor. Daha yeterli bakım ve tedavi imkânı ile hayatta kalma oranı artıyor. Peki bunu nasıl öngörebiliriz?
İşte veriye dayalı analizin görevi burda başlıyor. Hastane kapasitenizi ve ekipman seviyenizi zaten biliyorsunuz. İlk hastalık görüldükten sonra (t=0) yeni hastaların ortaya çıkış hızına göre bir yayılma hızı hesaplıyorsunuz. Bu hızı, virüsün daha önceki ülkelerdeki yayılma ve ölüm hızlarıyla karşılaştırınca popülasyonunuzun tahmini enfekte oranını bulabiliyorsunuz. Bulabiliyorsunuz da, etrafta bu kadar kirli bilgi varken gerçekten doğru bilgiye ulaşabiliyor musunuz?
Soru 1: Durum ne kadar kötü?
Herkesin merak ettiği soru bu. Yeterli önlem alındı mı? Üstteki grafik (23 Mart 2020 tarihine ait) bize İtalya’dan çok daha kötü bir durum ile karşı karşıya kaldığımızı söylese bile anlamlı bir sonuç çıkarmak için yeterli değil. Yeterli değil çünkü bizdeki ilk vakanın ne zaman ortaya çıktığını bilmiyoruz. Gerçekten 11 Mart mı? Yoksa THY uçağında Corona bulunduğunda ülkede çoktan vaka görülmüş müydü? Reuters’in haberine göre 3 Mart tarihinde İstanbul’dan havalanan bir yolcunun testi pozitif çıkmıştı.👇
Singapore sends Turkish Airlines flight home empty after coronavirus case
Cevap 1: Üstteki grafiğe bakıp ülkedeki gidişatı yorumlamak pek mümkün değil. Hastalığın ülkede görüldüğü ilk tarihi bilmiyoruz. Açıklandığı gibi 11 Mart tarihinde ülkede enfekte olmuş kaç hasta olduğunu bilmediğimiz için üstteki gibi bir grafik ile İtalya veya herhangi bir dünya ülkesi ile karşılaştırma yapmak anlamlı değil. Çünkü (t=0) ilk vakanın ne zaman ülkeye giriş yaptığını bilmiyoruz. Yine ülkelerin sağlık kapasiteleri de başka bir değişken…
Soru 2: Kaç kişi hasta olacak?
Yetkili makamlardan her gün hasta ve test sayıları geliyor. Bu da bize gidişat noktasında bir varsayım yapmamızı sağlıyor. İlk açıklanan rakamlar bir satranç hesabı gibi her geçen gün kendini ikiye katlasa da, corona vakasının üzerinden 2 hafta geçtikten sonra artış hızı yavaşladı. Bu da yüreklere su serpti. Peki gerçekten hasta sayısı nereye varacak?
Cevap 2: Yine cevabını kolaylıkla veremeyeceğimiz bir soru. Çünkü kaç kişinin hasta olduğunu (Covid-19) bilebilmek için öncelikle kaç kişiye test yapıldığını bilmemiz gerekiyor. (Tabi yapılan testlerin gerçekten güvenilir olduğunu kabul ediyoruz. 20 Mart’ta Çin’den hızlı test kitleri gelmeden önce ülkede yapılan testlerin güvenilirliğinden emin değiliz. Test kitlerinin güvenilir olduğunu bu tartşmada sabitledik.)
Kaç kişiye test yapıldığını bilmemiz gerekiyor ancak yetkili makamlardan gelen test sayılarında bir tutarsızlık var. 1'er gün atılan tweetlere göre 703 kişilik farklılık söz konusu. Tweetler halen durduğuna göre tapaj hatası yapıldığı kesin. Dolayısıyla kaç kişiye test yapıldığından da (p value >0.05) emin değiliz. Oysa ki geçtiğimiz süreçte ne kadar fazla test yapılırsa enfekte ve ölüm oranının o kadar düşük gerçekleşeceğini öğrenmiştik. Güney Kore ve İzlanda, milyon kişi başına 5000 ile 10.000 arasında test yaparak hem enfekte bireyleri toplumdan izole etti, hem de enfekte olan ile olmayan arasındaki bağı kurmaya çalıştı. Yeni alınan test kitleri ile yüksek adette test sayısına çıkması hedefleniliyor.
*Dr. Murat Kubilay’ın yazısında da bahsettiği gibi gerçekten bulmaya çalıştığımız soru, enfekte sayısı artarak mı değişiyor, azalarak mı? İşte bunu bilmiyoruz.
Soru 3: Ölüm oranı sabit mi?
Tüm dünyadan gelen verilere bakıldığında ölüm oranı hakkında ortalama bir değere ulaşmak mümkün.
Cevap 3: Bir salgın sona erdiğinde o salgının yarattığı ölüm oranına ölüm/vaka sayısından ulaşabiliyorsunuz. Ancak salgın devam ederken böyle bir oran hakkında konuşmak yanlış. Çünkü formüldeki gibi kaç kişinin etkilendiğini henüz bilmiyoruz. Sadece varsayımlarda bulunabiliyoruz. Dolayısıyla doğru formül aşağıdaki gibi olmalı;
Ölüm Oranı=Günde ölüm adedi.x/günde vaka adedi.x -(t)
t=vakanın bilinirliğinden ölüme kadar geçen süre.
Örn: 20 Mart ölü sayısı / 13 Mart vaka sayısı (7 = vakanın bilinirliğinden ölüme kadar geçen ortalama süre)
Yine tekrarlayalım. Elinizdeki datalar yanlış ise formülünüz de yanlış sonuca ulaşacaktır. Herhangi bir ülke için ölüm oranı vermek, salgın sonlanana kadar doğru değil.
Soru 4: Hali hazırda kronik bir hastalığı olanlar daha çabuk mu hasta oluyor?
Güncel veriler ve salgını kontrol altına almış Çin gibi ülkelerden gelen bilgiler ışığında şeker, tansiyon gibi hastalığı olan çabuk etkilenen ve zor tedavi olan vakalar arasında. Peki bu korelasyonu henüz kurabilir miyiz?
Cevap 4: Belirli coğrafyalar için evet. Çünkü bu korelasyonu kurabilmek için öncelikle hastalıktan kurtulanların da neden kurtulduğunun araştırılması gerekiyor. Şu anda sadece ölümle sonuçlanan vakalar üzerinden bir veri toplama işlemi gerçekleştiği için bu sonuca ulaşmak mümkün. Bir diğer değişken ise serbest dolaşan gençler olabilir. Belki de salgın bittiğinde gençler daha yüksek bir virüs taşıyıcısı oldukları için, serbest dolaşımın yüksek olduğu coğrafyalarda ölümlerin daha çok gerçekleştiği de söylenebilir. Tüm bunlara cevap aramak için salgının bitmesini ya da tüm vaka verilerinin şeffaflıkla paylaşılmasını beklemeliyiz.
Beyaz Yakalının Veri İle İmtihanı
Big Data dünyası ile başlayan ve kendimizi bir “data lake” içinde bulduğumuz bugünlerde, corona salgınından öğreneceğimiz çok şey var. Bilinmez bir durumdan çıkmak için elinizdeki veriler faydalı olabilir.
Ancak tek bir şartla: Doğru yorumlayabiliyorsanız!
İşte iş yaşamında da sıklıkla karşılaştığımız bilinçli ya da bilinçsizce yaptığımız verileri okumadaki hataya, gerçek hayattan bir örnek.
Gerçekten elimizdeki verileri doğru okuyabiliyor muyuz? Yoksa inandıklarımızı onaylayacak veriler mi arıyoruz? Bu tip kaos ortamlarında dikkat etmemiz gereken en önemli şey ne kadar gerçekçi kalabiliyoruz?
Ortalıkta kirli bilgi olduğunda karar vermeniz de zorlaşıyor.
İşte size başlangıç için 3 basit öneri;
1.Metriklerinizi doğru belirleyin.
Ne ölçmek istiyorsunuz? Kalite mi, Kantite mi? Ne aradığınızı bilirseniz, nasıl arayacağınız çok daha kolay olur.
2.Raporlama şovlarından kaçının.
Çoğunlukla herkesin yaptığı hata olası bir artışı adetsel bazda değil oran ile vermek olacaktır. Şüphesiz 3'ten 6'ya çıkan bir %100'lük artış ile 500'den 1000'e çıkan %100'lük artış aynı değere sahip değildir.
3.Öğren ve adapte ol. (Learn, Unlearn, Relearn)
Veri analizi derinleştikçe bazı verilerinizi analizden çıkarmanız gerekebilir. Ya da kendinizi bambaşka bir yönde ilerlediğinizi hissedebilirsiniz. Böyle durumda sürecin farkına varıp, sonuca ulaşmakta ısrarcı olmamanız gerekir. Aksi takdirde doğru veriye değil, inandığınız veriye ulaşacaksınızdır.
Veri okumanın kolay olmadığı ve bu işle ilgilenen kişiler için ciddi bir antreman ve bilgi gerektirdiği ortada. Antremansız çıktığınız maçlarda hatayı hep hakemde bulacaksınız.
Sevgiler….
Data Bias üzerine detaylı bir yazı için.
Güncel corona verileri içinse tıklayın.
**Bu arada tüm bu analizleri yaparken sağlık sisteminizin kusursuz çalıştığını, sağlık personelinin de gerekli tüm ekipmanlara sahip olduğunu varsaymak durumundayız. Aksi takdirde sabitlediğiniz değerler değişeceği için sonuçlarınız da değişecektir.