SSIS Data Profiling Task

Şaheste Akpınar
BilgeAdam Teknoloji
3 min readOct 13, 2022

Data Profiling Task

Herhangi bir veri çalışması için veriyi tanımak önemlidir. Verinin profilini çıkarmak verinin kalitesi, veri kaynağının hangi bağlamda kullanılacağı ve çalışmanın yönlendirilmesi açısından fayda sağlar.

SSIS’deki Data Profiling Task kısıtlı özelliklerde olsa da verinin profilini çıkarmak için geliştirilmiştir.

Taskı açtığımızda karşımıza destination ayarları çıkıyor. Task çalışıp verilerin profili çıkarıldığında bize bu işlemin sonucunu XML dosyası olarak gösterecektir. Bu XML dosyasını taskta tanımlamamız için destination ayarlarından herhangi bir formatta boş bir dosya belirtmemiz gerekir. File connection veya variable kısmında dosya yolu belirterek bu işlemi yapabiliriz.

Destination type file connection seçip yeni bir dosya bağlantısı oluşturuyoruz.

Var olan bir dosyayı seçebilir ya da yeni bir dosya oluşturabiliriz. Oluşturduğum dosyayı tanımlıyorum.

Destination dosyasını tanımladıktan sonra Timeout ayarlarından bağlantı zaman aşımı süresini belirleyebiliriz. Bağlantı belirtilen süreden daha uzun sürerse bağlantı başarısız olur. Mevcut dosyanın üzerine yazması için OverWriteDestination ayarı True olarak değiştirilir.

Daha sonra sağ altta bulunan Quick Profile butonuna tıklayarak data connection ayarlarımızı yapıyoruz. Data Profiling Task sadece ADO.NET bağlantısı ve yalnızca SQL Server veritabanlarını destekleyen SqlClient ADO sağlayıcısı ile çalışır. New connection diyerek server ayarlarını yaptıktan sonra databasedeki tablo veya view seçip ve istediğimiz kolon profillerini tikleyip ilerliyoruz.

OK dediğimizde karşımıza şu şekilde data profili ekranı gelecektir. Data Profil Task ayarlarımız bu şekilde tamamlanacaktır.

Tüm ayarları yaptıktan sonra taskı çalıştırdığımızda destinationda tanımladığımız dosyaya xml olarak yazacaktır.

Veri profilini görmek için task çalıştıktan sonra taska tıklayıp Open Profile Viewer butonuna tıklayıp görüntüleyiciyi açıyoruz.

Profil görüntüleyici açıldığında sol taraftaki sekmelerden verinin profiline bakabiliriz.

Candidate Key Profiles sekmesinde hangi sütunların unique olduğunu anahtar sütunları görebiliriz.

Column Length Distribution Profiles sekmesinde sütunların minimum ve maksimum karakter uzunluğunu gösterir.

Column Null Ratio Profiles sekmesinde sütunların null kayıt sayısını gösterir.

Column Statics Profiles sekmesinde sayısal sütunlar için minimum, maksimum, ortalama ve standart sapma ve tarih saat sütunları için minimum ve maksimum gibi istatistikleri raporlar. Bu özellik, verilerdeki geçersiz tarihler gibi sorunları belirlemenize yardımcı olabilir.

Column Value Distribution Profiles sekmesinde sütunda bulunan tüm farklı değerleri raporlar, nasıl dağıldığını gösterir ve ayrıca sütunda en çok var olan değerleri gösterir. Örneğin Class kolonunda 3 farklı değer bulunuyor, “H” değerinden 82 kayıt bulunuyor ve %16.2698'lik bir bölümünü oluşturuyor.

SSIS Data Profiling Task ile bu şekilde verilerimizi inceleyebiliriz. Özel olarak profil isteği eklenmez. Sınırlı profil ile çalışıyor olsa da ihtiyaca yönelik kullanılabilir.

İyi çalışmalar…

--

--