Azure Data Factory

Ataberk Teknekaya
PEAKUP Tech News
Published in
4 min readApr 10, 2023

Tüm veri bilimi ve iş zekası süreçleri ham verilerin dönüştürülüp uygun bir kaynakta analize hazır hale getirilmesine bağlıdır.

Azure Data Factory (ADF) de bu dönüştürmeyi yapan, veri odaklı iş akışları oluşturmayı sağlayan bulut tabanlı bir ETL, ELT ve veri tümleştirme (ingestion) hizmetidir.

azure data factory

ADF’in veri entegrasyonu süreçlerini basitleştirmesi, veri mimarisi yönetimini kolaylaştırması ve tüm bunları da tek arayüz üzerinden sunması son dönemde popülerliğini ciddi ölçüde arttırdı.

Veri kaynağı olarak Azure, şirket içi ve üçüncü kaynak sistemleri kullanabilmesi de hatırı sayılır bir avantaj.

Uçtan uca iş zekası kapsamında ADF

ADF Kullanım Alanları

Veri Entegrasyonu: Farklı veri kaynaklarından veri toplama, bunları birleştirme ve hedef sistemlere aktarma

Veri Dönüştürme: Veri kaynaklarını başka veri kaynaklarına dönüştürme işlemleri (Örnekler: Bir CSV dosyasının bir SQL tablosuna yazılması, sıkıştırılmış bir dosyanın açılıp başka bir klasöre kopyalanması, vb.)

Veri İşleme: Veriler üzerinde filtreleme, birleştirme, eşleştirme, pivot alma gibi işlemlerin gerçekleştirilmesi

ADF’in Avantajları

  • Veri tümleştirme için 100'den fazla kaynağa ulaşım
  • Kod yazmadan veri akışlarını kontrol etme
  • Kod yazmadan Spark üzerinde veri dönüştürme işlemleri yapma
  • Veri aktivitelerini çeşitli tetikleyicilerle (trigger) zamanlama
  • Tüm veri akışı geçmişini gözlemleme

ADF’in Temel Bileşenleri

Örnek bir ADF işlem hattı

ADF’in 6 farklı temel bileşeni vardır:

İşlem hatları (Pipelines): Bir iş sürecini gerçekleştiren etkinliklerden oluşan gruplardır. Etkinlikleri bir küme olarak yönetmeyi sağlar. Bir data factory’de birden fazla işlem hattı olabilir. Birbirine zincirleme ya da paralel olarak çalışabilirler.

Etkinlikler (Activities): Bir işlem hattındaki işleme adımıdır. Veri taşıma, dönüştürme ve denetimi gibi çeşitleri vardır.

Veri kümeleri (Datasets): Etkinliklerin girdi ve çıktılarını referans eden veri yapılarıdır.

Bağlı hizmetler (Linked services): Kaynaklara bağlanmak için Data Factory’ye gereken bağlantı bilgilerini tanımlayan yapılardır.

Tetikleyiciler (Triggers): Bir işlem hattının çalışması gereken zamanı belirleyen yapılardır.

Tümleştirme Çalışma Alanı (Integration Runtime): Etkinlikler ve bağlı hizmetler arasındaki köprü katmanıdır. Etkinliklerin çalıştığı bilgi işlem ortamını sağlar.

Veri akışları (Dataflows): Kod yazmadan veri dönüştürme işlemlerinin yapıldığı Spark kümeleri üzerinde çalışan yapılardır.

Azure Data Factory Kurulumu

Azure Portal’a giriş yapın ve “Create a resource” seçeneğine tıklayın.

Arama kutusuna “Data Factory” yazın ve çıkan sonuçlardan “Data Factory” seçeneğini seçin ve “Create” düğmesine tıklayın.

“Create new” seçeneğini seçerek bir “Resource Group” oluşturun veya zaten mevcut bir kaynak grubu seçin.

“Basics” sekmesinde, bir isim ve bir abonelik seçin.

“Version” alanında “V2” seçeneğini seçin.

“Region” alanında, ADF hizmetinin bulunduğu bölgeyi seçin. Türkiye için West Europe seçebilirsiniz. Bölgeler üzerinden hız testlerini bu linkten yapabilirsiniz: http://azurespeedtest.azurewebsites.net/

“Git Configuration” bölümünde, “Configure Git later” seçeneğini seçebilirsiniz.

“Networking” sekmesinde, varsayılan ayarları bırakabilirsiniz.

“Review + Create” düğmesine tıklayın ve oluşturma işlemini tamamlayın.

“Launch studio” düğmesine tıklayarak Azure Data Factory Studio’ya giriş yapabilirsiniz.

Azure Data Factory Studio Kullanımı

ADF Studio’yu açtığınızda “Home” ekranı karşınıza çıkar. Bu ekran 4 farklı seçenek çıkartır. Bu seçenekler en çok kullanılan ADF özelliklerinin bir özetidir:

  • “Ingest” düğmesine bastığınızda bir “Copy Data” etkinliği için wizard açılır ve sizi etkinliği oluşturmak için yönlendirir.
  • “Orchestrate” düğmesi Author ekranında bir işlem hattı oluşturur.
  • “Transform data” düğmesi Author ekranında bir veri akışı oluşturur.
  • “Configure SSIS” düğmesi SSIS paketinizi cloud ortamında çalıştırmanız için gereken sekmeyi açar.

“Author” ekranı ADF’in dizayn ekranıdır. Etkinlik, veri kümesi, işlem hattı, veri akışı gibi temel bileşenler burada oluşturulur.

“Monitor” ekranı data factory aktiviteleri gözlemeleye yarar. Buradan son işlem hattı ve tetikleyici çalıştırmalarını görebilirsiniz.

“Manage” ekranı ADF’in yönetim ve güvenlik ekranıdır. Buradan yeni bağlı hizmet ya da tümleştirme çalışma alanı kurulabilirsiniz.

En son eklenen “Learning Center” ekranından eğitim videolarına ve gelen güncellemelere ulaşabilirsiniz.

Not: Microsoft, ADF Studio kullanıcı arayüzünü aldığı geri bildirimler doğrultusunda sürekli güncelliyor. Yeni ekranların eklendiğini görebilir ya da var olanlarda değişiklikler gözlemleyebilirsiniz.

Referanslar

--

--

Ataberk Teknekaya
PEAKUP Tech News

As a BI consultant with a passion for Azure Data Platform, SQL and Power BI, I write about real-life scenarios to help others in the field.