Veri Analizi: Eğlence mi, İşkence mi?

Cetin Karahan
DataBulls
Published in
11 min readDec 10, 2021

--

Denetim sürecimizin hem en eğlenceli hem de en ızdıraplı konusu veri ile çalışmak. Eğlenceli; eğer istediğiniz veriye, istediğiniz zamanda ve kalitede ulaşabiliyorsanız. Izdıraplı; eğer veriler eksik, yetersiz, dağınık ya da kalitesizse.

Bu yazıda verilen örneklerin hâlihazırda görev yaptığım kurum ile herhangi bir ilgisi bulunmamaktadır. Örnekler kısmen daha önceden şahit olduğum, danışmanlık ya da görüş verirken rastladığım durumların bir kurgusu biçiminde tasarlanmıştır. Bu yazıda aşağıdaki soruların yanıtlarını bulabilirsiniz:

Veri analizi ile veri analitiğinin farkı nedir?

Metaveri nedir? Ne işe yarar?

Veri sözlüğü ile metaveri aynı şey mi?

Veri temizleme ne demek?

Veri yönetimi ile neyi hedefliyoruz?

“Bilginin kalite kriterleri” nedir?

Veri analizi, veri analitiği, veri görselleştirme… kulağa ne kadar da hoş gelen kavramlar değil mi? Eğitimlerimizde, sunumlarımızda, yazılarımızda bunları ve benzerlerini bolca kullanıyor, ne kadar önemli olduklarından sıkça bahsediyoruz. Önemli olduklarına kuşku yok elbette. Ancak, bunlardan bahsederken genellikle analiz aşamasına gelene kadarki sancılı süreci yok sayıyor ya da kusursuz bir veri yapısının olduğu, tüm veri girişlerinin tam ve doğru yapıldığı bir harikalar diyarında olduğumuzu varsayıyoruz. Oysa sahada durumlar pek de öyle değil. Bir veri tabanı ya da oturmuş bir ERP sistemi ile çalışıyorsanız işiniz nispeten daha kolay. Ancak benim odaklandığım nokta daha çok düzensiz manuel girişlerin olduğu, sıklıkla Excel tabloları ile çalışılan görece daha kontrolsüz durumlar.

Denetim sürecimizin hem en eğlenceli hem de en ızdıraplı konusu veri ile çalışmak. Eğlenceli; eğer istediğiniz veriye, istediğiniz zamanda ve kalitede ulaşabiliyorsanız. Izdıraplı; eğer veriler eksik, yetersiz, dağınık ya da kalitesizse.

Bu güne kadar genellikle Excel dosyaları biçiminde hazırlanmış olan -ya da farklı formatlardaki verileri Excel olarak düzenleyerek- verilerle çalışmak durumunda kaldım. Denetim kariyerimin öncesinde ise gayet düzgün biçimde yapılandırılmış, hacimli veri içeren SQL ve Oracle veri tabanları ile çalışma şansım oldu. Bu veri tabanları ile çalışmak, verileri analiz etmek, görüntülemek ve sunmak ne kadar eğlenceli ve tatmin edici ise, Excel dosyalarındaki verilerle çalışmak o kadar yıpratıcı, zaman alıcı ve zorlayıcıydı.

Küçük birkaç örnek ile somutlaştırmaya çalışayım. Konusu insan kaynakları, satınalma işlemleri, ihaleler gibi ilgili birimce tutulması gereken verileri içeren denetimlerde sanıyorum birçok meslektaşımın başına gelmiştir:

İnsan Kaynakları Birimine “Personel listesini dijital ortamda iletebilir misiniz?” diye sordum. Hangi bilgileri istiyorsunuz diye bile sormadan “hayhay” dediler. Bilgi İşlem Birimine “Active Directory’de kayıtlı kullanıcı listesini iletebilir misiniz?” dedim, “hayhay” dediler ve her iki birim de birer Excel dosyası ile listeleri ilettiler. Tek yapmamız gereken iki listeyi karşılaştırıp personel listesinde olup AD’de olmayanları, AD’de yer alıp personel listesinde bulunmayanları tespit etmekti. Basit bir VLOOKUP formülü ile halledecektik. Halledemedik. Çünkü ya bazı isimler kimi zaman kısaltılmıştı, “Mehmet Ali” yerine “M. Ali” biçiminde, ya da kimi zaman küçük harf, kimi zaman büyük harf kullanılmıştı -ki bazı Türkçe karakterlerde eşleştirme sorunu yaratıyordu. Bu basit veri analizi hevesimiz kursağımızda kalarak neredeyse baştan sona gözle kontrol etmemiz gerekti. Dijitalleşme mi? Henüz değil.

Bir başka denetimde ise yıl içinde gerçekleşen satın almalara ilişkin istatistiki verileri istedik. Yine “hayhay” dediler. Veri girişlerini muhtemelen farklı departman ya da kişiler yaptığından benzer bir problemle karşılaştık. Örneğin, tam adı “XYZİ Yazılım ve Danışmanlık Anonim Şirketi” olan tedarikçi kimi yerde XYZİ ya da XYZI, kimi yerde XYZİ A.Ş., kimi yerde de Xyzi yaz. Dan. A.Ş. olarak kaydedilmişti. Tedarikçi isimlerini harf sırasına alıp her birini özdeş hale getirmek nispeten kolaydı, ancak iş bedel kısmına geldiğinde yaşanacaktı asıl hayal kırıklığı. Satın alma bedelleri bazen TL, bazen USD bazen de EURO olarak girilmiş, bazen para birimi hiç belirtilmemiş, satınalma tarihi yer alırken ödeme tarihi girilmemiş, herhangi bir kur bilgisi de eklenmemişti. Dahası, aynı hücre içerisinde Alt+Enter ile ya da birkaç defa space tuşuna basarak çoklu veri girişi yapılmıştı. Haliyle bu hücredeki verileri uygun biçimde sütunlara bölmek mümkün değildi. Yine bir veri analizi hevesinin kursakta kalışı…

Tüm bunları bir şekilde düzeltseniz de, biçimlendirme hataları, kelime ya da cümle sonlarında zaman zaman bırakılan bir boşluk (tek karakter space) gibi problemlerle karşılaşmanız çok olası.

Benzer örnekleri çoğaltmak mümkün. Çözümü ise aslında çok da zor değil ve bunu çözmek için veri bilimcisi olmaya da gerek yok. Girişini yaptığınız her bir veriyi tanımlamak, bir veri envanteri oluşturmak, mümkünse veri girişi yapılan ortamı (MS Excel gibi) sadece istenen formata izin verecek şekilde yapılandırmak gibi etkili öneriler hemen herkesin aklına ilk gelecek basit çözümler. Bu yazının konusunu da bu basit çözümlerin sistematiği ve bu sistematiğe ait bazı terimlerin açıklaması oluşturuyor.

Veri analizi mi, veri analitiği mi?

Genellikle benzer anlamlarda kullanılıyor ama aralarında küçük bir fark var; Veri analizi geçmişe ait bilgileri kullanarak o zamana kadar ne olduğunu anlamak için kullanılır ve veri analitiğinin alt kümesidir. Veri analizinde geçmişe ait, gerçekleşmiş veriler kullanılarak tamamlanmış işlemler üzerinde çalışılır. Denetim terminolojisi ile, tespit edici bir kontroldür. Veri analitiği ise gelecekteki kararları desteklemek için geçmişe ait verileri keşfetme, anlama ve içgörülerle birleştirme sürecidir.

Gerek ulusal, gerekse uluslararası düzeyde son yılların en öne çıkan konularından biri olan veri analitiği temelinde ham veriler üzerinde bazı teknikler kullanılarak sonuç çıkarma bilimini ifade ediyor. Oldukça kapsamlı bir terim ve birçok veri analizi metodunu içeriyor. Diğer analiz metotlarında olduğu gibi birkaç kritik adımı içeriyor:

Bu kısma kadar gayet sistematik ve yürütülmesi çok da zor olmayan bir süreç gibi görünüyor. Ancak, ilk iki adım (veri özelliklerinin belirlenmesi, veri toplama) uygun biçimde tasarlanmamış ve uygulanmamışsa veri üzerinde çalışmak bir işkence haline gelebiliyor.

Verinin özellikleri ifadesini birkaç defa kullandık, peki nedir bu veri özellikleri? Veri de bizim (yani kurumumuzun) varlıklarımızdan biri ve varlık envanteri hazırlarken veri varlığını da mutlaka dikkate almak gerekiyor. Diğer tüm varlıklarda olduğu gibi, veriyi de tanımlamamız, belirli özellikleri ile kayıt altına almamız, yani veriler için bir nevi kimlik çıkarmamız gerekiyor. Veri için çıkaracağımız kimlik kendi kimliklerimizden pek farklı değil, belki biraz daha kapsamlı. İşte “veri hakkında veri” olarak kısaca ifade edilen bu kimlik bilgileri metaveri (metadata) olarak adlandırılıyor.

Metaveri: Veri hakkında veri:

TÜİK [1] metaveriyi “Veriyi tanımlayan, anlamlandıran , kalitesini, kaynağını, formatını ve bunun gibi değişkenleri açıklayan bilgiler topluluğudur. Metaveri, veri üretenler ve veriyi kullananlar arasında bir köprü görevi görmektedir.” biçiminde tanımlıyor. Metaveri, veri üzerinde birlikte çalışmayı desteklemek, verinin anlaşılmasını, yeniden kullanılmasını ve diğer verilere entegre edilmesini sağlamak açısından çok önemli.

Metaveri ideal olarak veriye ilişkin kim, ne, nerede, ne zaman, neden, nasıl dahil olmak üzere tüm gereksinim duyulan bilgileri içerir ve standart bir formatı vardır. Bir veriyi bu standart format ile tanımladığınızda onu kullanmak ve yönetmek kolaylaştığından veriye değer katar.

Her ne kadar bazı durumlarda (yukarıda örneğini verdiğim ekstrem durumlar) sistematik bir biçimde oluşturulmasa da, verinin kullanılabilmesi için metaveri şarttır. Örneğin, “sıcaklık” verisini anlamlı bir biçimde kullanabilmek için ölçüldüğü yer, ölçüm saati, birimi, kullanılan cihaz gibi temel bilgilere sahip olunması zorunludur.

Metadata, tıpkı aşağıda kısaca bahsedeceğim diğer bazı kavramlar gibi oldukça kapsamlı ve başlı başına bir yazı konusu olmayı hak eden bir başlık. Üstelik düşündüğümüzden de fazla hayatımızın içinde. Örneğin, herhangi bir dosyanın oluşturulma, erişim ve son değiştirilme tarihleri buna bir örnek. Ya da okuduğumuz kitabın adı, yazarı, yayıncısı, basım tarihi, içindekiler listesi, sayfa sayısı gibi bilgiler de kitabın metadatası. Biraz daha kapsamlı bir örneği ise aşağıdaki görselde görebilirsiniz. Sağ üstte bir fotoğrafım, ve kalan kısımda da bu fotoğrafa ait metadatanın bir kısmı yer alıyor.

Bir fotoğraf ve fotoğraftan çok daha kapsamlı metadatası.

270 satırlık metadatanın sadece küçük bir kısmını ekleyebildim. Buradan fotoğrafın hangi cihazla çekildiğini bile görebilirsiniz (elbette her fotoğraf için değil).

Metadata için son bir örnek çok beğendiğim ve bağlantı adresini aşağıya [2] bıraktığım “The Anatomy of a Tweet: Metadata on Twitter” başlıklı bir yazıdan (Aktaran; Simon Fodden — Çalışma; Raffi Krikorian):

Bir tweetin anatomisi, Raffi Krikorian (2010)

Yukarıdaki görsel bize metadatanın kişisel veri ve mahremiyet ile bağlantısını da ortaya koyuyor. Bir tweet, bir WhatsApp mesajı ya da bir Instagram beğenisinin arkasında farkında olmadan paylaştığımız birçok verinin olduğu, bu hizmetleri sağlayan firmaların aslında hangi verileri kullandıkları-kullanabileceklerini görmek için oldukça güzel bir örnek.

Verinin uygun biçimde girilmesi ve analizi için metaveri yeterli mi peki? Burada bazen metaveri ile aynı anlamda kullanılan “veri sözlüğü” kavramından bahsetmek gerekiyor.

Veri sözlüğü: Veritabanının metaverisi

Veri sözlüğü en basit ifade ile metadatayı depolayan bir yapıdır. Yukarıda bahsettiğim “veri hakkında veri”lerin bir listesi olarak da düşünülebilir. Daha akademik bir tanımı ise “veri yönetimi üzerinde merkezi yönetimi sağlayan, anlam, diğer verilerle ilişkiler, sorumluluk, kaynak, kullanım ve format gibi veri tanımlamaları hakkındaki bilgileri içeren merkezi bir depodur” biçiminde.

Veritabanı ortamında yönetime, veritabanı yöneticilerine, sistem analistlerine ve uygulama programcılarına veri kaynaklarının toplanması, depolanması ve kullanılmasının etkin planlaması, kontrolü ve değerlendirilmesinde yardımcı olan temel araçtır. Bu temel araç veritabanında depolanan tüm maddelerin bir indeksini ve tarifini içerir.

Veri sözlüğü de aynen metaveri gibi tek başına bir yazı konusu olacak detay ve derinliğe sahip. Kavramlar ve tanımlar üzerinden bir konuyu anlatmak bazen özden uzaklaşmaya ve konunun karmaşıklaşmasına sebep olarak anlaşılmasını daha güç hale getiriyor. Bu nedenle kendi eğitimlerimde de deneyimim arttıkça olabildiğince teknik tariflerden, klasik tanımlardan kaçınmaya çalışıyorum. Yukarıdaki akademik tanım da ilk bakışta anlaşılması güç olabilecek bir tanım. Eğer SQL tablolarına aşinaysanız, veri sözlüğünü tablo oluştururken girilen sütun adları (nitelikler) ve her bir niteliğin veri tipi, boyutu gibi özellikleri biçiminde düşünebilirsiniz. Veri sözlüğünün belirli bir standardı olmadığından, çok kapsamlı bir biçimde hazırlanabileceği gibi aşağıdaki görselde örneğini verdiğim gibi gayet basit de olabilir.

Basit bir veri sözlüğü yapısı

Burada temel amacımız verinin tam ve doğru biçimde, analize hazır olarak toplanmasını sağlamak. Bunun da yolu tasarıma yeteri kadar zaman ayırarak daha sonra veri temizleme için kaybedeceğimiz zamanı -daha da kötüsü kullanılamayacak verileri toplamanın yol açacağı kaynak israfını- en baştan engellemek. Bu yazıda bahsettiğim konuların tamamının ana hedefi bu.

Veriyi otomatik sistemlerden (IoT cihazları ya da sensörler gibi) toplamıyorsanız, aynen siber güvenlikte olduğu gibi, veri analizi aşamasındaki en zayıf halka yine “insan”.

Üniversiteden çok yakın bir arkadaşım stajını küçük bir fabrikada yapmıştı. O dönem derslerimizde yer almamasına karşın veri tabanına duyduğu ilgi sonucunda, staj yaptığı işletmenin satınalma ve üretim planlama verilerini MS Access’e aktararak üretim, stok ve sipariş takibi yapan basit bir uygulama geliştirmişti. Yaptığı yazılım o kadar işe yaramış, firma sahibi tarafından o kadar beğenilmişti ki stajdan sonra da yarı zamanlı olarak orada çalışmaya devam etti. Hatta mezun olduktan sonra büyük bir firma ile yaptığı görüşmede bu programı sunarak işe alındı. Bir konuşmamızda “O zaman farkında değildim ama ben basit bir ERP yazılımı yapmışım” demişti.

Biraz karmaşık, teorik bilgiyle anlatması güç konularla karşılaştığımda hep bu örneği hatırlarım. Aslında sorunu doğru biçimde tespit edip gerçek ve kalıcı bir çözüm için yeterli efor sarf edilince, ulaşılacak nokta farklı yollardan da olsa aynı. Bunun adına ERP ya da veri sözlüğü diyerek ağdalı tanımlar halinde sunduğunuzda biraz göz korkutucu olabiliyor.

Bir Excel tablosunda yer alan birkaç yüz satırlık tedarik bilgileri üzerinde bir çalışma yapılacaksa, firma isimlerinin belirli bir format ile girilmiş olması gerekiyor. “Firma adının aynen faturada gözüken şekli ile girilmesi, firma bilgilerinin firmanın adı, yetkilisi, iletişim adresi, telefon numarası bilgilerini içermesi…” gibi basit bir kuralı baştan koymak ve bunu sistematik hale getirerek her veri için yapmak en uygun çözüm. Bu uygun çözüme ulaşmak için gerekli tasarımı yaptığınızda sizin de muhtemelen söyleyeceğiniz şey “Ben aslında veri sözlüğü ve metadatayı tarif etmişim” olacak.

Tasarım ne kadar iyi olursa olsun muhtemelen yine de düzeltilmesi gereken konularla karşılaşacaksınız. Burada da gündeme “veri temizleme” kavramı geliyor.

Veri temizleme

Verinin tanımlanması ve özelliklerinin belirlenmesi ile veri toplama adımı düzenlense de, tüm verinin istenen (yazımın son kısmında bahsettiğim) özellikleri taşıdığından emin olunması için, analizden önce gerçekleştirilmesi gereken son adım “data cleansing” ya da “data cleaning” olarak ifade edilen veri temizleme. Veri temizleme veri toplamadan sonraki ilk adım ve veri grubunun yanlış ya da bozuk bilgiden arındırılması, dolayısı ile veri analizinin sağlıklı bir biçimde gerçekleştirilmesi için en önemli adım. Veri toplamadan önce yapılan tasarım aslında veri temizleme aşamasının daha hızlı ve kolay bir biçimde yapılmasını sağlıyor.

Temel olarak, bir veri kümesindeki hatalı, eksik ve bozulmuş kısımların belirlenerek bu kısımların değiştirilmesini ya da ayıklanmasını içeriyor. Her ne kadar sıkıcı ve yorucu bir işlem olsa da veri analizinin kalitesini doğrudan etkilediğinden çok değerli bir adım. Veri temizleme işlemi otomatik ya da manuel olarak gerçekleştirilebilen bir süreç.

Örneğin, meteorolojik verilerin toplandığı bir sistemde, ön koşul ve kurallar koyularak veriler veritabanına girdiği anda bu kurallara göre otomatik olarak değerlendirilebilir. Sıcaklık için alt ve üst sınırlar (örneğin Ankara için -20°C ile +45°C aralığı dışında kalan değerler kirli veri olarak daha sonra kontrol edilmek üzere bayraklanabilir) belirlenip bu sınırların dışında kalan veriler daha sonra manuel olarak değerlendirilip kullanılabilir hale getirilebilir ya da doğrudan ayıklanabilir.

Veri temizleme süreci birkaç aşamalı olarak da gerçekleştirilebilir. İlk aşamada sınır değerleri aşan, yazım hatalarını içeren (rakam gerekirken karakter girişi, 10 haneli olması gereken verinin eksik ya da fazla hane içermesi gibi) veriler işlemden geçirildikten sonra daha detaylı bir analizle ikinci bir temizleme sürecinden geçirilebilir. Yine sıcaklık üzerinden örneklendirirsek; tanımlanan sınırlar içinde olmakla birlikte yakın civarda ölçülen sıcaklık değerlerinden büyük sapma gösteren (Ankara’nın tüm ilçelerinde sıcaklık 20°C dolaylarındayken tek noktada sıcaklığın 35°C olması gibi), ya da sınırlar içinde olmakla birlikte sürekli aynı değeri içeren (günün her saatinde 20°C gibi) veriler bu ikinci aşama ile temizlenebilir.

Farklı temizleme ve kalite kontrol adımları olmakla birlikte, verinin geçerlilik, doğruluk, tamlık, tutarlılık gibi kalite kriterlerini karşıladığından emin olunana dek veri temizleme süreci sürdürülmelidir.

Tüm bu bahsettiklerim esasında veri yönetimi ana başlığının altında yer alan çok sayıda unsurdan sadece birkaçı. Peki veri yönetimi neden bu kadar önemli?

Veri Yönetimi

Mosley, Brackett & Earley [3] veri yönetimini “veri ve bilgi varlıklarının değerini elde eden, kontrol eden, koruyan, sunan ve geliştiren politikaların, uygulamaların ve projelerin planlanması ve uygulanması” olarak tarif ediyor.

Veri yönetiminin misyonu kuruluşun tüm paydaşlarının bilgi gereksinimlerini verinin erişilebilirliği, güvenliği ve kalitesi bakımlarından karşılamak ve beklentileri bu bakımlardan aşmaktır.

Veri yönetimi fonksiyonunun stratejik hedefleri ise yine aynı kaynakta aşağıdaki biçimde sıralanıyor:

► Kuruluşun ve tüm paydaşlarının bilgi gereksinimlerinin anlaşılması,

► Veri varlıklarını elde etmek, depolamak, korumak ve bütünlüğünü (doğruluğunu) sağlamak,

►Aşağıdakileri de içerecek biçimde veri ve bilginin kalitesini sürekli olarak geliştirmek:

♦ Veri tamlığı ve bütünlüğü

♦ Veri doğruluğu

♦ Veri entegrasyonu

♦ Veriye erişimin ve sunumunun zamanlılığı

♦Verinin kullanışlılığı ve ilgililiği

♦ Veri tanımlarının açıklığı ve genel kabulü

► Veri ve bilginin gizliliğinin ve mahremiyetinin sağlanması, yetkisiz erişim ve uygunsuz kullanımın engellenmesi,

► Veri ve bilgi varlıklarının değerinin ve etkin kullanımının maksimize edilmesi.

Ve son olarak veri ve bilginin kalitesi ile kastedilen nedir? Kaliteyi sağlamak ya da ölçmek için verinin hangi niteliklerine bakmalıyız? Bunun için de kısaca kalite kriterlerinden bahsedebiliriz.

Veri — Bilgi Kalite Kriterleri

ISACA [4] bilginin amaçlarını “ulaşılacak kalite kriterleri” olarak ifade ederek bu kriterleri yapısal (içsel), bağlamsal ve güvenlik/erişilebilirlik olmak üzere üç alt boyuta, her alt boyutu da çok sayıda alt kalite kriterine ayırıyor. Bilgi kalitesinin bu alt kriterleri ve bunların kısa açıklaması ise aşağıdaki biçimde:

Bilgi Hedefleri/Kalite Kriterleri (ISACA, 2013, s. 31)

Sonuç

“Düşün, uzay çağında bir ayağımız,
Ham çarık, kıl çorapta olsa da biri”

Bu yazıya aslında uzunca bir süre önce başlamış, notlarımın en tepesine de Ahmed Arif’in çok sevdiğim “Uy Havar” şiirinin yukarıdaki dizelerini koymuştum. Siber güvenlik, veri yönetimi ya da herhangi bir dijital dünya konusu gündeme geldiğinde hep bu dizeler geliyor aklıma. Bir tarafta yapay zeka, big data, 5G, blockchain vs. konuşup muazzam stratejiler, hedefler ortaya koyarken bir tarafta henüz hangi veriye sahip olduğumuzu, o verinin doğruluğunu, ihtiyaca uygunluğunu bilmiyoruz. Aynı kurum içerisinde kimi zaman uzay çağı ile endüstri 2.0'ı bir arada görebiliyoruz.

Çalışanlar ve belki de birimler arasındaki bu bilgi ve farkındalık uçurumunu kapatmanın yolunu bulmadan ne sibergüvenlikte ne de bilgi kalitesinin istenen düzeye gelmesinde başarılı olmak çok güç.

Kaynaklar

[1] https://www.tuik.gov.tr/Kurumsal/Meta_Veri_Nedir

[2] http://www.slaw.ca/2011/11/17/the-anatomy-of-a-tweet-metadata-on-twitter/

[3] Mosley, M., Brackett, M., & Earley, S. (2009). The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK Guide). NJ, USA: Technics Publications, LLC.

[4] ISACA. (2013). COBIT 5: Enabling Information. Illinois: ISACA.

--

--

Cetin Karahan
DataBulls

CISA, Internal Auditor, Industrial Engineer MSc., MIS PhD candidate -/- I only write about something that I really have competence -/-