Azure Data Factory’nin Power Query ile ETL Serüveni
Azure Data Factory, veri entegrasyonu ve dönüştürme işlemlerinin gerçekleştirilmesine olanak sağlayan bir platformdur. Bu platform sayesinde, verilerin farklı kaynaklardan alınması, dönüştürülmesi ve hedef sistemlere aktarılması işlemleri otomatik olarak gerçekleştirilebilir.
Bu seride Abdullah Kise’nin eğitim verdiği “DP-203T00: Data Engineering on Microsoft Azure” başlıklı kurs içeriğini belirli konular nezdinde takip edeceğiz. Ayrıca Abdullah Kise hocama aktarmış olduğu değerli bilgilerinden dolayı teşekkür ederim.
Bu yazıda, Azure Data Factory kullanarak Power Query aracılığıyla veri dönüştürme işlemlerinin nasıl gerçekleştirileceği anlatılacaktır.
Settings
İlk olarak, Ayarlar alanından yeni bir veri kümesi tanımlamak için “New” butonuna tıklanır.
Dataset Tanımlama
Veri kümesi, Data lake Gen2 içindeki dosyalara erişimi sağlar.
Veri kümesi tanımlarken, veriye en uygun format seçilmelidir. Verilerimizin formatına en yakın “delimited text” olduğu için seçimi tamamlıyoruz.
Link servislerimizi ve container içinde bulunan dosya yollarımızı belirtiyoruz.
Power Query ekranına geçildiğinde, veri dönüştürme işlemleri burada gerçekleştirilir.
User Query penceresinde değişiklikleri yapacağız. Bu alan da delimited text alanından veri almaktadır.
Not: Delimited text alanında işlem yapılmamalı çünkü veriyi ezebiliriz.
İşlem Kolonlarını Ayırma
· Transform sekmesinde, split column altında By position alanına tıklıyoruz.
Bu işlem, veriyi pozisyona göre ayırmayı sağlar. Default olarak ayırma belirteçleri de otomatik olarak gösterilir.
Pozisyona göre ayırmasını bekliyoruz.
Veriyi okuyup, default olarak ayırma belirteçlerini gösteriyor.
Veriyi net bir şekilde bizim için ayırdı fakat yukarıdaki çıkan uyarıda şimdilik bu özelliği kullanamayacağımızı ileriki süreçlerde geleceği bilgisini veriyor.
Ancak, yukarıda belirtildiği gibi bu özellik şimdilik kullanılamaz. Bu nedenle, Transform sekmesinin “Extract” altında “Range” seçeneğine tıklanarak, position aralıkları belirlenir. Bu işlem sonucunda, veri tipleri de değiştirilebilir.
Bu bölümde yukarıda önerdiği position aralıkları girilebilir.
Range aralıkları belirlendi ve daha sonra column1 sütunu kaldırıldı.
Veri Tiplerini Değiştirme
Sonraki adım, “Sink” ayarlarının yapılmasıdır. Bu ayarlar, verinin nereye kaydedileceğini belirler.
Son olarak, işlem tamamlandıktan sonra verinin hedef sistemlere aktarılması için “Publish” seçeneğine tıklanır. Bu işlem sonucunda, verilerin otomatik olarak dönüştürülmesi ve hedef sistemlere aktarılması sağlanır.
Trigger seçeneğiyle veri dönüştürme işlemleri otomatik olarak gerçekleştirilebilir. Verinin containera geldiği, Excel dökümü sayesinde takip edilebilir.
Containera verilerin geldiğini görebiliriz.
Excel Dökümü
Azure Data Factory ve Power Query kullanarak veri dönüştürme işlemleri oldukça kolay bir şekilde gerçekleştirilebilir. Bu sayede, verilerin farklı kaynaklardan alınması ve hedef sistemlere aktarılması işlemleri otomatik olarak gerçekleştirilebilir.