PENTAHO SPOON DERS 1: INPUT

Kardelen Erdem
Machine Learning Turkiye
5 min readMar 26, 2022

--

Herkese Merhabalar,

Bir önceki yazımda sizlere ETL’in ne olduğundan ve neden kullanıldığından ve bazı ETL araçlarından bahsetmiştim. Bugünkü yazıda ise etkili ve kullanışlı bir ETL aracı olan Pentaho Data Integration KETTLE (Spoon) aracının kullanımından bahsedeceğim. Yazıya geçmeden önce yeniden ETL kavramının üzerinden kısa bir özet geçelim. Verinin birden fazla kaynağı olduğunda gelen verileri anlamlandırabilme sürecine ETL adını vermiştik. Bu sayede veriyi ayıklayıp, dönüştürüp ilgili kaynağa sorunsuz şekilde yükleyebiliyoruz. Pentaho Data Integration (PDI) ise bizim tüm ETL sürecini sezgisel ve kolay ara yüzü ile kolayca gerçekleştirmemize olanak sağlıyor. Sektör açısından bakıldığında ise oldukça popüler bir veri entegrasyonu ve İş Zekası aracıdır.

Neden Pentaho Kullanmalıyız?

Pentaho kod yazmanızı gerektirmeyen sürükle bırak mantığıyla çalışan ara yüzüyle kullanım kolaylığı sağlar. Bunun yanı sıra büyük veri kümelerini kolayca temizleyip işleyebilir, yapılandırılmış (structured), yarı yapılandırılmış (semi-structured) ve yapılandırılmamış (unstructured) veri yapıları konusunda esneklik sağlar ve Java platform desteği ile işlemler yapabilime imkanınız vardır.

Kısaca PDI’dan bahsettikten sonra ilk adım olarak sisteme farklı veri yapılarını nasıl yükleyebiliriz bunlara bakalım.

İlk olarak Spoon uygulamasını açtığımızda bizi karşılayan sayfayı inceleyelim.

PDI indirdiğinizde database ile bağlantı yapmadıysanız siyah kutucuğa tıklayarak Database Connection seçeneği ile bağlantı kurabilirsiniz. Daha sonra ise çalışmaya başlamak için Transformation’a tıklayarak yeni bir .ktr projesi oluşturuyoruz. çalışma sayfası açmamız gerekiyor. Aynı zamanda buradan .bat uzantılı Job projeside oluşturabiliyoruz. Bunu serinin ilerleyen yazılarında daha detaylı inceleyeceğiz. Yeni projemizi oluşturduktan sonra verileri girdi olarak almak için Input’a tıklayarak veri formatına uygun olan veri giriş seçeneğinin üzerine tıklayarak sürükle bırak mantığı ile çalışma sayfamıza bırakıyoruz.

Aşağıdaki görseli incelediğimizde hemen hemen veri formatına uygun bir girişin olduğunu görüyoruz.

  • CSV File Input’tan başlayarak veri kaynağından Spoon’a nasıl veri çekebiliriz buna bakalım.
  • Çalışma alanındaki CSV File Input’un üzerine çift tıklayıp yüklemek istediğimiz .csv uzantılı dosyayı seçiyoruz. Daha sonra Get Fields diyerek tabloda bulunan alanları getiriyoruz. Son olarak Preview ile gelen verileri kontrol ediyoruz ve OK diyerek CSV formatındaki veri yükleme işlemini tamamlamış oluyoruz.
Yukarıdaki adımlardan sonra kullandığımız veri setini görselde görebilirsiniz.
  • Table Input
  • Data Grid ile kendi veri setimizi oluşturabiliriz.
Oluşturmak istediğimiz veri setinin özelliklerini tanımlıyoruz.
Oluşturduğumuz her alana uygun olan veri tipini ve formatını seçiyoruz.
Preview diyerek boş tablomuza ulaşıp veri girişini yapıyoruz.
  • Generate Random Credit Cards Number ile kredi kartı numarası oluşturabiliriz.
İlk olarak oluşturmak istediğimiz kredi kartı tipini seçiyoruz.
Daha sonra kart tipine göre kaç haneli numara üretilmesi gerekiyorsa length ile belirtiyoruz ve son olarak tane kart numarası üretmesi istediğini yazıyoruz.
  • Generate Random Value rasgele bir değer üretmek istediğimizde aşağıdaki adımları takip ediyoruz.
  • Generate Rows yeni satırlar oluşturmak istediğimizde kullanılır.
  • Get Data From XML elinizde herhangi bir XML formatında dosya varsa ve bunu veri setine dönüştürmek istiyorsanız kullanabilirsiniz.

Örneğin; Bir internet sitesinde belirli bir markanın bilgisayar modelleri ve fiyat içeriğini veri olarak kullanmak istediğinizde.

  • Get File Names bir dosyaya sürekli bir veri akışı varsa (günlük harcamaların tutulduğu excel sayfası gibi) ve siz raporunuzda en son tutulan günün verilerine ulaşmak istiyorsanız bu yöntemi kullanabilirsiniz.
  • Get File Row Counts ile dosyanızda bulunan toplam satır sayısını bulabilirsiniz.
  • Get SubFolders Names ile bir klasörde bulunan tüm alt dosya isimlerine ulaşıp transformation işlemlerini uygulayabilirsiniz.
  • Get System Info ile anlık sistem bilgilerinize ulaşabilir ve bunu veri haline dönüştürebilirsiniz.
  • Property Input .properties uzantılı dosyalarınızı veri olarak alıp kolaylıkla işleyebilirsiniz.

BONUS!!! Pentaho Spoona Geospatial Plugin ekleyerek coğrafi verilerinizi de bir kaynaktan diğerine aktarabilirsiniz.

Pentaho Spoon’u bilmeyenler için ilk adım olarak veri aktarımı nasıl yapılabilir sorusu yazıdan sonra umarım sizler için daha netleşmiştir. Burada tüm Input seçeneklerini gösteremesem de amacım temel olarak mantığını anlatabilmekti.

Bir sonraki Pentaho Spoon dersinde görüşmek üzere :)

Herkese İyi Çalışmalar,

Daha fazla yazı için Web Sitemi ziyaret edebilirsiniz

Diğer Yazılarımı Okumak İsterseniz;

--

--