Metadata Yönetimi: Ne, Neden ve Nasıl?

Ahmet Kuzubaşlı
Nov 9, 2019 · 3 min read

Orijinal Yazı: http://www.ahmetkuzubasli.com/nerd-zone/metadata-yonetimi/

Metadata yani Üst Veri yönetimi günümüzde dijitalleşme çabalarının hız kazanması ile birlikte giderek daha kritik hale geliyor ve hatta bu çabaların başarısını belirliyor. Eskiden ayrı disklerde, flash belleklerde, CD’lerde saklanan veriler Big Data ve Cloud sistemlerine geçmiş olmamıza rağmen hala ayrı ayrı yerdeler. Veri büyüklüğü ve çeşitliliği arttıkça bu veriler hakkındaki verilerin de yönetimi can alıcı olmaya başladı.

İnternette metadata hakkında kafa karıştırıcı birçok içerik mevcut, bu yüzden bu yazıyı sizlerle paylaşmak istedim.

Metadata Yönetimi ne yapar?

Farklı farklı tanımları olsa da, temel işlevi veriyi kullanan kişilerin hangi veriyi nerede bulacaklarını bilmelerini sağlayan bir araç diyebiliriz.

Örneğin, MusteriNo yada MusteriAdi gibi anahtarlarla tablolanmış verileri düşünelim. Eğer iyi bir metadata yönetimi varsa ise yeni başlayan bir Data Scientist yada Business Analyst (yada idealde verileri kullanmak isteyen herhangi bir çalışan) bu sistemi kullandığında hangi sütundaki hangi özelliğin nereden geldiğini, nasıl hesaplandığını görebilmesi gerekir. Buna ek olarak, hangi sistemlerden hangi özelliklerin kullanıldığı (Lineage) ve eğer o özellikler herhangi bir şekilde değişikliğe uğrarsa hangi sistemlerin etkileneceğini (Impact Analysis) görselleştirebilmelidir.

Sadece yöneticiler değil aynı zamanda teknik kullanıcıların da bu yönetim sistemini kullanabilmesi, business ve teknik metadataları birbiriyle kombine edebilmesi, hangi özelliğin hangi ETL sonucunda oraya yazıldığını öğrenebilmesi gerekir. Diğer türlü, ETL yapan kişiler şirketten ayrıldığında (ki bu çok sık olur) yeni kişiler için ortalık çok fena karışık gözükecektir. Operasyonel metadataların da yine bu yönetim sistemi üzerinden kullanıcıların parmak ucunda olması gerekir.

Kısacası, metadata yönetim sistemi aslında veriler hakkında verileri saklayan bir nevi “veritabanı” oluşturulmasını da gerekli kılabilir. Hadi buna Türkçe’de “Veri Kataloğu” diyelim.

Metadata Yönetimi nasıl çalışır?

Metadata Yönetimi, Veri Yönetimi’nin bir parçası olarak kurum seviyesinde metadatayı yönetmek için ortaya çıkmış inisiyatiflerden biridir. Ondan başka Master Data Management (MDM) veya Data Quality Deal (DQD) gibi inisiyatifler bulunmaktadır.

Metadatayı çıkarmak ve saklamak amacıyla otomatik Parsing yapan araçlar mevcut. Bu araçların özelliklerin ne türde saklandığı ve min/max yada mean/median gibi istatistiki bilgileri de otomatik olarak çıkarması beklenir. Böylece veri tabanı, veri ambarı yada entegrasyon araçları gibi farklı veri kaynaklarından metadataların alınarak kurum seviyesinde bir metadata modeli çıkması sağlanır.

Eğer kurum seviyesinde bir model oluşturulması başarılırsa, kullanıcıların aynı özelliği farklı isimlerle veya farklı özellikleri aynı isimle adlandırması gibi karmaşıklığa sebep olacak hataların önüne geçilebilir. Ayrıca, farklı sistemlerin birbirine nasıl bağlı olduğu ve verinin nerden nereye aktığı da oldukça kolay bir şekilde görülebilir. Yani veriyi kullanacak kişi sadece tek bir noktadan, işten 5 yıl önce ayrılmış Ali Bey’i aramadan, hangi verinin nereden geldiğini, nasıl temizlendiğini veya nasıl normalize edildiğini görebilir. Versiyonlama, iş akışları ve onaylar gibi SDLC metodları veriler için de kullanılabilir hale gelir, kimin hangi veriyi görebileceği veya değiştirebileceği bilinir ve “review” döngüsü ile istemsiz silinmelerin yada üzerine yazmaların önüne geçilebilir.

Peki neden metadatayı yönetmeliyiz?

Hali hazırda cevapladığımız bu soruyu tek kelime ile tekrar cevaplayacak olursak, Güven. Verinin gücünü artık hemen hemen herkes fark etmiş durumda ve bu konuda adım atıyor. Hızlı adım atan kurumlar, veri konusundaki sıkıntıları erken fark ettiler. Artık organizasyonda sadece küçük bir ekip değil tüm ekipler verileri kullanmak zorunda. Analiz amacıyla olmasa bile operasyonel veriler olmadan iş yapmak mümkün değil.

Şirketler büyüdükçe, kişiler sık sık iş değiştirdikçe ve yeni çalışanlar geldikçe veri yönetiminin kişilerden bağımsız bir hale getirilmesi gerekiyor. Eğer bu yapılmazsa, veri sistemlerinin yaşam döngüleri yönetilemeyeceği için herkes kafasına göre isimlendirmeler ve normalizasyon ile veriyi belirli bir işlemden geçirecek ve bundan kimsenin haberi olmayacaktır. Uzun mülakatlardan sonra ise aldığınız zehir gibi Data Scientist bu karmaşanın içinde kafayı yiyecek ve bir süre sonra verilere olan güvenini ve dolayısıyla işine olan saygısını ve motivasyonunu yitirecektir.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade