Eksik Gözlem İçeren Verilerin Modellenmesi

Murat Koptur
Healthelligence
Published in
2 min readAug 26, 2020

--

Eksik gözlemler, bir gözlemdeki bir veya daha fazla değişken için hiçbir veri gözlemlenmediğinde / depolanmadığında ortaya çıkar. Eksik veriler üç farklı şekilde ortaya çıkabilir:

  1. Missing Completely at Random (MCAR): Eksik gözlemler, gözlenen ve gözlenemeyen verilerden tamamen bağımsızdır. Bu durumda eksik veri içeren gözlemler silinebilir ve yapılan analizler yansız olacaktır ancak veriler nadiren MCAR’dır.
  2. Missing at Random (MAR): Eksik gözlemler sadece gözlenen verilere bağlıdır.
  3. Missing not at Random (MNAR): Eksik gözlemler şansa bağlı değildir.

Bu durumları daha iyi açıklayabilmek için aşağıdaki verisetini göz önüne alalım:

Eksik gözlemler içeren veriseti örneği

MCAR durumunda, bir değişkendeki eksik veriler diğer değişkenlerle ilgisizdir.

MAR durumunda, rozet boyutu < 35.0 durumu için yaş değişkeni eksik gözlemler içermektedir.

MNAR durumunda ise, yaş > 3 için gözlemler eksiktir, dolayısıyla eksik değerler değişkenin kendisine bağlıdır.

MAR ve MCAR durumları göz ardı edilebilir (ignorable) durumlar iken, MNAR durumu göz ardı edilemezdir (nonignorable).Göz ardı edilebilir demek, değer atama durumunda çeşitli varsayımların gerekmediği anlamına gelmektedir ve modern çoklu değer atama (multiple imputation) yöntemleri bu durumlarda başarılı sonuç vermektedirler. MNAR ise eksik verinin açıkça modellenmesini gerektirmektedir.

Eksik veri durumlarında en sık kullanılan yöntemler, eksik veri içeren gözlemin silinmesidir. İlk iki durumda, eksik gözlemlerin silinmesi güvenli olsa da gözlemlerin silinmesi başka problemler yaratmaktadır:

  • Bilgi kaybı ve istatistiksel güçte düşüş
  • Parametre tahminlerinde yanlılık ve gerçek parametre değerlerinden sapma

Bilgi kaybını örneklemek için, 12 değişken içeren bir veriseti düşünelim. Her bir değişkenin %5'lik kısmı eksik olsun. Eğer eksik gözlemleri silersek, verisetinin %43'lük bir kısmını kaybederiz. Bu da önemli bir bilgi kaybı olarak nitelendirilebilir.

Eksik veriler için sık kullanılan diğer bir yöntem ise değer atama (imputation) yöntemleridir. En sık kullanılan değer atama metodu, eksik verileri, değişken sürekli ise değişkenin ortalamasıyla; değişken kesikli ise değişkenin moduyla değiştirmektir. Ancak ortalama ve mod değer atama yöntemleri verisetindeki varyansı küçülterek modellerde yanlı sonuçlara neden olur.

Literatürde kullanılan diğer değer atama yöntemleri beklenti maksimizasyonu, regresyon ataması, çoklu atama olarak özetlenebilir. Bu yöntemlerinde veriler üzerinde farklı etkileri vardır.

Eksik veriyle baş etmenin en iyi yolu, eksik veriye sahip olmamaktır (Anonim).

Eksik verinin önlenmesi için deneyler / çalışmalar iyi planlanmalı ve uygulanmalıdır. Bir deney / çalışma yapıldığında, çalışılan konu hakkında iyi bilgi sahibi olan birisi hangi değişkenlerin eksik veri içereceğini bilebilir. Bu durumda bu değişkenlerle korelasyonu olan yardımcı değişkenler kurgulanarak MNAR, MAR’a dönüştürülebilir.

MNAR ile baş etmek için sık kullanılan iki yöntem, Multiple imputation by chained equations (MICE) ve multiple imputation with pattern-mixture models yöntemleridir.

Veri bilimi çözümlerimiz, eğitim ve danışmanlık hizmetlerimiz için bizimle 538 455 6549 nolu telefondan, muratkoptur@healthelligence.tech adresinden veya LinkedIn üzerinden iletişime geçebilirsiniz.

--

--