Veri Gölleri - Data Lakes

Sumeyyekumru
alBarakaTech Global
5 min readNov 11, 2020

--

Her yıl küresel ısınmanın etkisiyle evrende onlarca göl kuruyor. İnsanoğlunun tahribatıyla gerçek evrende yaşanan bu büyük kaybın aksine, dijital evrende yine insanoğlunun ürettiği veri miktarı katlanarak büyük bir kazanım haline geliyor.

Tüm bu verilerin %90'ı yapılandırılmamış veya yarı yapılandırılmış verilerden oluşuyor. Tüm bunları depolamanın ve hızlı işleme kapasitesini korumanın yolları aranırken devreye data lake yani veri gölleri giriyor.

Data Lake tanımı yapacak olursak, veri gölü; birçok kaynaktan gelen büyük verileri ham ve ayrıntılı bir biçimde tutan merkezi depolama aracıdır. Veri gölleri;

  • İşlenmemiş ham haliyle veriyi barındırdığı için kompleks bir yapıya sahiptir ama bu bize verinin ilk halini görme imkanını sağlar.
  • Veri tipi için herhangi bir sınırlama yoktur bu da esneklik sağlar.
  • Veriler herhangi bir süzgeçten geçmemiş, henüz kategorize edilmemiştir.

Genel bir veri yönetim stratejisinde veri gölünün kullanımında ticari faydalar vardır. Bu nedenle zaman ve para israfından kaçınmak da aynı derecede önemlidir. Profesyoneller bu rehberlik çerçevesini kullanarak bu zaman ve para kaybını önleyecek şekilde veri gölünün tasarımını ele alır.

Veri alımı, işlenmesi ve tüketimi için gereksinimleri belirlemeye yardımcı olan 3 farklı mimari modellemesi vardır. Bunlar inflow, outflow ve data science lab lake tir. Yani göle giriş, gölden çıkış ve veri bilimi labaratuarı modellemesi. Bunlar kendi aralarında bilgi toplama veya yönetim gibi alanlarda benzerlik gösterebildikleri gibi farklılıkları da bulunmaktadır. Tek tek inceleyelim.

Giriş Yönlü Veri Gölü (Inflow Data Lake)

İlk veri mimari modelimiz inflow data lake. Farklı kaynaklardan alınan veri silolarını köprülemek için kullanılır. Köprülemekten kasıt kullanıcıların birçok kaynak noktasına tek bir kaynaktan erişimidir. Gölün dışında bu tarz analizler zordur, çünkü farklı kaynaklara erişmek durumunda kalırlar. Özellikle bt bu modellemede verilerin ne anlama geldiğini bilmez. Bazı şirketler bunun için bt ye izin vermiyor bu nedenle şirket/işletme bu verilerden bt ye ihtiyaç duymaksızın değer elde edebilecek şekilde kendi self servis yeteneklerine odaklanarak tasarımını yapmalıdır. Self servis, BI kullanımı için uygundur.

Örneğin, bir üretici, ürünleri hakkındaki tüm verileri bir veri gölünde depolayarak yararlanabilir. Bu, tasarım özellikleri, ürün üretim verileri, depolama ve sevkiyat bilgileri ve müşteri siparişleri, iade verileri, garanti geçmişi gibi çeşitli içerikleri içerir. Daha sonra bunu, Nesnelerin İnterneti (IoT) sensörü ve gerçek ürün tüketimi ve kullanımı hakkında bilgi sağlayan sosyal medya verileri ile birleştirebilir. İki farklı kaynaktan ortak bir analiz elde etmiş olur.

Bu mimari tarz dwh a en yakın olanıdır. Temel farkı rafine edilmemiş verileri saklama yeteneğidir. Dwh ise belli işlemlerden geçmiş verileri depolar.

Çıkış Yönlü Veri Gölü (Outflow Data Lake)

Verilere daha hızlı ulaşmak için en iyisi outflow data lakedir. Anında erişim veya akış yoluyla yeni gelen veriler için bir iniş alanı görevi görür. Veri yorumlama ve iyileştirme için read modda kullanılır. Genellikle ham verileri uzun vadede saklamak için kullanılır. Genellikle dönüştürüldükten sonra Dwh’ta sonuçlanacak veri barındırır. Bunun için ETL/ELT işlemleri yapılır. Hız bu veri gölünün en önemli özelliğidir. Anında veya operasyonel kullanım için de esneklik sağlar. Bu nedenle IOT için yaygın olarak kullanılır.

Veri Bilimi Labaratuarı (Data Science Lab Lake)

Veri bilimi labaratuarı tarzı; inovasyonu ,teknolojik yenilenlemeleri yeni yollarla mümkün hale getirebilmek için en iyisidir. Veri keşfi ve keşif yoluyla inovasyonu sağlamak, gelişmiş analitik teknikler uygulamak için kullanıma uygundur.

Sağlık alanı başta olmak üzere Bankacılık, telekominikasyon, ticaret gibi sektörlerde yaygın olarak kullanılır. Yapısal olarak diğer iki mimari tarzla da benzerlik gösterir fakat genellikle 360 derece müşteri memnuniyeti, jet motoru, siber güvenlik, dijital mizan gibi dar bir amaç için kullanılır.

Tüm bu üç data lake mimarisinin arasında benzerlikler ve farklılıklar bulunur. Veri gölü uygulamaları genellikle bu mimari tarzlardan biriyle başlar. Daha sonra, olgunlaşırken, veri gölü diğer stillerin ögelerini ekler. Stiller birbirine alternatif değildir; genellikle üst üste binecek ve tek bir fiziksel kümede var olacaklardır.

Data Lake mi DWH mı ?

Dwh ve Data Lake arasındaki temel fark verilerinin düzenliliğidir. DWH işlenmiş ve tek bir şema halinde düzenlenmiş verileri bünyesinde barındırırken, Data Lake ham ve yapılandırılmamış verileri bulundurur. DWH ta belli filtrelerden geçirilmiş, temizlenmiş veriler bulunurken; Data Lake gerektiğinde seçilebilen, düzenlenebilen verileri bulundurur. Data Lake Dwh’ın aksine verileri filtrelemez, bünyesine kabul etmeden ETL gibi herhangi bir işlemden geçirmez. Yani verileri olduğu gibi kabul eder.

Dwh ve Data Lake arasında bu farklılıkların dışında başka temel farklılıklar da bulunmaktadır. Bu farklılıklar;

Data Lake vs Data Warehouse

Bu farklılıklar ve her iki veri deposunun yetenekleri göz önünde bulundurulduğunda şirketlerin/kullanıcıların aklına şu soru geliyor;

Hangi veri depolama yöntemini kullanmalıyım? Dwh veya Data Lake veri depolarından hangisi benim için en uygunu?

Bir yanda her türlü kaynaktan yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış ham verilerin toplanmasına olanak sağlayan Data Lake, bir diğer tarafta belirli bir amaç göz önünde bulundurularak yapılandırılmış ve işlenmiş veri deposu görevi gören Data Warehouse.

Gartner bu iki veri deposunun birlikte kullanılmasının en doğru kullanım şekli olduğunu belirtiyor. Bir Data Lake arkasından çalışacak şekilde dizayn edilmiş DWH. Yapılandırılmış/yapılandırılmamış veriler Data Lake ten gelip ETL/ELT ile DWH a yüklenerek kullanıcıya en doğru veri analizi imkanını sunar bu şekilde eldeki verilerin kullanımını mümkün kılar. Unutmayın;

Veri ham petrole benzer, rafine edilmedikçe kullanımı mümkün değildir!

Bir sonraki yazımızda Veri göllerinin kullanım örneklerinden bahsedeceğiz.

--

--