Azure Data Factory
Tüm veri bilimi ve iş zekası süreçleri ham verilerin dönüştürülüp uygun bir kaynakta analize hazır hale getirilmesine bağlıdır.
Azure Data Factory (ADF) de bu dönüştürmeyi yapan, veri odaklı iş akışları oluşturmayı sağlayan bulut tabanlı bir ETL, ELT ve veri tümleştirme (ingestion) hizmetidir.
ADF’in veri entegrasyonu süreçlerini basitleştirmesi, veri mimarisi yönetimini kolaylaştırması ve tüm bunları da tek arayüz üzerinden sunması son dönemde popülerliğini ciddi ölçüde arttırdı.
Veri kaynağı olarak Azure, şirket içi ve üçüncü kaynak sistemleri kullanabilmesi de hatırı sayılır bir avantaj.
ADF Kullanım Alanları
Veri Entegrasyonu: Farklı veri kaynaklarından veri toplama, bunları birleştirme ve hedef sistemlere aktarma
Veri Dönüştürme: Veri kaynaklarını başka veri kaynaklarına dönüştürme işlemleri (Örnekler: Bir CSV dosyasının bir SQL tablosuna yazılması, sıkıştırılmış bir dosyanın açılıp başka bir klasöre kopyalanması, vb.)
Veri İşleme: Veriler üzerinde filtreleme, birleştirme, eşleştirme, pivot alma gibi işlemlerin gerçekleştirilmesi
ADF’in Avantajları
- Veri tümleştirme için 100'den fazla kaynağa ulaşım
- Kod yazmadan veri akışlarını kontrol etme
- Kod yazmadan Spark üzerinde veri dönüştürme işlemleri yapma
- Veri aktivitelerini çeşitli tetikleyicilerle (trigger) zamanlama
- Tüm veri akışı geçmişini gözlemleme
ADF’in Temel Bileşenleri
ADF’in 6 farklı temel bileşeni vardır:
İşlem hatları (Pipelines): Bir iş sürecini gerçekleştiren etkinliklerden oluşan gruplardır. Etkinlikleri bir küme olarak yönetmeyi sağlar. Bir data factory’de birden fazla işlem hattı olabilir. Birbirine zincirleme ya da paralel olarak çalışabilirler.
Etkinlikler (Activities): Bir işlem hattındaki işleme adımıdır. Veri taşıma, dönüştürme ve denetimi gibi çeşitleri vardır.
Veri kümeleri (Datasets): Etkinliklerin girdi ve çıktılarını referans eden veri yapılarıdır.
Bağlı hizmetler (Linked services): Kaynaklara bağlanmak için Data Factory’ye gereken bağlantı bilgilerini tanımlayan yapılardır.
Tetikleyiciler (Triggers): Bir işlem hattının çalışması gereken zamanı belirleyen yapılardır.
Tümleştirme Çalışma Alanı (Integration Runtime): Etkinlikler ve bağlı hizmetler arasındaki köprü katmanıdır. Etkinliklerin çalıştığı bilgi işlem ortamını sağlar.
Veri akışları (Dataflows): Kod yazmadan veri dönüştürme işlemlerinin yapıldığı Spark kümeleri üzerinde çalışan yapılardır.
Azure Data Factory Kurulumu
Azure Portal’a giriş yapın ve “Create a resource” seçeneğine tıklayın.
Arama kutusuna “Data Factory” yazın ve çıkan sonuçlardan “Data Factory” seçeneğini seçin ve “Create” düğmesine tıklayın.
“Create new” seçeneğini seçerek bir “Resource Group” oluşturun veya zaten mevcut bir kaynak grubu seçin.
“Basics” sekmesinde, bir isim ve bir abonelik seçin.
“Version” alanında “V2” seçeneğini seçin.
“Region” alanında, ADF hizmetinin bulunduğu bölgeyi seçin. Türkiye için West Europe seçebilirsiniz. Bölgeler üzerinden hız testlerini bu linkten yapabilirsiniz: http://azurespeedtest.azurewebsites.net/
“Git Configuration” bölümünde, “Configure Git later” seçeneğini seçebilirsiniz.
“Networking” sekmesinde, varsayılan ayarları bırakabilirsiniz.
“Review + Create” düğmesine tıklayın ve oluşturma işlemini tamamlayın.
“Launch studio” düğmesine tıklayarak Azure Data Factory Studio’ya giriş yapabilirsiniz.
Azure Data Factory Studio Kullanımı
ADF Studio’yu açtığınızda “Home” ekranı karşınıza çıkar. Bu ekran 4 farklı seçenek çıkartır. Bu seçenekler en çok kullanılan ADF özelliklerinin bir özetidir:
- “Ingest” düğmesine bastığınızda bir “Copy Data” etkinliği için wizard açılır ve sizi etkinliği oluşturmak için yönlendirir.
- “Orchestrate” düğmesi Author ekranında bir işlem hattı oluşturur.
- “Transform data” düğmesi Author ekranında bir veri akışı oluşturur.
- “Configure SSIS” düğmesi SSIS paketinizi cloud ortamında çalıştırmanız için gereken sekmeyi açar.
“Author” ekranı ADF’in dizayn ekranıdır. Etkinlik, veri kümesi, işlem hattı, veri akışı gibi temel bileşenler burada oluşturulur.
“Monitor” ekranı data factory aktiviteleri gözlemeleye yarar. Buradan son işlem hattı ve tetikleyici çalıştırmalarını görebilirsiniz.
“Manage” ekranı ADF’in yönetim ve güvenlik ekranıdır. Buradan yeni bağlı hizmet ya da tümleştirme çalışma alanı kurulabilirsiniz.
En son eklenen “Learning Center” ekranından eğitim videolarına ve gelen güncellemelere ulaşabilirsiniz.
Not: Microsoft, ADF Studio kullanıcı arayüzünü aldığı geri bildirimler doğrultusunda sürekli güncelliyor. Yeni ekranların eklendiğini görebilir ya da var olanlarda değişiklikler gözlemleyebilirsiniz.
Referanslar
- Introduction to Azure Data Factory — Azure Data Factory | Microsoft Learn. Microsoft : https://learn.microsoft.com/en-us/azure/data-factory/introduction