KNIME İle Veri Analizi

Mert Alabaş
Data Runner
Published in
4 min readNov 6, 2020

Merhaba! Sizlerden gelen yoğun istek üzerine bloğumuzda Rahime Yeşil ile birlikte KNIME yazı dizisine başlamaya karar verdik. Yazılarımızı mümkün olduğunca temelden başlatıp ileri düzeye doğru yazmaya çalışacağız. Okuyan herkese faydalı olması dileğiyle..Keyifli okumalar..

  1. Neden KNIME ?

Veri bilimi son dönemde ilgi odağı olan ve hakkında birçok yazılar yazılan alanlardan biridir. Veri bilimi alanında farklı programlar kullanılmakla birlikte, özellikle açık kaynak kodlu olan R ve Python gibi araçlar ön plana çıkmaktadır.

Veri bilimi ile uğraşanlar zamanının büyük kısmını veri ön işleme kısmında harcamakta ve karmaşık kod yapısı ile karşı karşıya gelebilmektedirler. Bu da analiz süreçlerinin uzamasına neden olmaktadır. Veri ön işleme, modelleme, tahmin zamanlarını kısaltmak ve kod yazımını en aza indirmek için sürükle bırak yöntemi ile çalışan araçlar tercih edilmektedir.

KNIME da sürükle bırak yöntemi ile çalıştığından ve kullanımı diğer açık kaynak araçlarına göre daha kolay olduğundan tercih edilmektedir. Bunun yanında veri bilimi sürecini otomatikleştirmesi, birçok işletim sistemi ile entegre olması ve raporlama fırsatı sunması da KNIME’ın özelliklerindendir.

KNIME kurulumunu buradaki videoyu izleyerek kolayca yapabilirsiniz.

2. KNIME Ekranının Tanıtımı

KNIME Explorer : Bu menüde bulunan Local sekmesi ile mevcut iş akışlarınıza veya üzerinde çalıştığınız bir workflow’a erişebilirsiniz. Examples sekmesinde KNIME’ın bizlere sunduğu big data, data access, data manipulation, analytics , reporting gibi birçok örnek iş akışlarına ulaşabilirsiniz. Kendi isteğinize göre yeni repository’ler oluşturabilirsiniz.

Node Repository : Bu bölüm iş akışlarımızda kullanacağımız düğümleri içermektedir. Ekrana baktığımızda düğümlerin işlevlerine göre belirli bir başlık altında toparlandığını görüyoruz. Örneğin IO başlığının altında dosya okuma ve yazma düğümlerine veya Analytics başlığının altında bu amaca hizmet eden düğümlere ulaşabilirsiniz. Düğümleri teker teker bulmak yerine sol üstte bulunan arama kutusuna yazarak direk olarak ulaşabilirsiniz.

Console : Ekranın en altında bulunan console sekmesi iş akışının yürütülmesi ile ilgili tüm uyarı ve hata mesajlarını içerir. Örneğin akışınıza eklediğiniz düğüm(node)’ün configure aşamasında bir hata olduğunda, hata mesajı burada yer alır.

Workflow Editor : Bu sekme ise iş akışlarının oluşturulduğu yani düğümlerin belirli bir amaca yönelik bileştirildiği yerdir.

3. KNIME Çalışma Biçimi

Knime’da her işlemin bir node’u yani düğümü vardır. Bu düğümler workbrench dediğimiz kareli alana sürükle-bırak yaparak çalıştırılır. Düğümler veri işleme sürecinde, görselleştirmede ve modellemede kısacası veri analizi için yapacağımız tüm işlemlerde kullanılır. Yapacağımız her bir işlemin ayrı düğümü vardır. Örneğin aşağıdaki ekranda dosya okumak için “File Reader” düğümünü ekrana sürükleyip bırakılır.

4. Configure İşlemi

Yapmak istediğimiz işlemi gerçekleştirmeden önce o işlemi yapacak olan düğüm üzerindeki ayarlamaları yapmamız gerekmektedir. Bu ayarlar düğüm üzerine sağ tıkladığımızda karşımıza çıkan configure menüsü ile yapılır. Her düğümün kendine ait ayarları vardır. Bu ayarları sizin ortaya koymak istediğiniz düzenleme ya da modellemeye göre değişebilir.

File Reader’ın configure işlemlerinde aşağıdaki özellikler vardır. Burada yüklemek istediğiniz dosyayı seçebilir, ne şekilde görmek istediğinizi biçimlendirebilirsiniz. Örneğin ilk satırı kolon isimleri olarak alabilirsiniz.

5. Düğümlerin (Node) Anlamları

İşlem yapmak istediğiniz düğümü “Node Repository” bölümünden aratarak kolayca bulabilirsiniz.

Her düğüm birbirine bağlanıp çalıştırılmak için girdi ve çıktılardan oluşur. Örneğin; File Reader genelde ilk adım olduğu için sadece output yani çıktı alır. Partitioning yani modelimizi train ve test olarak böldüğümüz düğüm ise hem girdi hem de çıktılardan oluşur.

Düğümlerin altındaki kırmızı, sarı ve yeşil ışığın belirli anlamları vardır. Kırmızı; düzenlemenin ya da gerekli ayarın yapılmadığını gösterir. Sarı; düzenlemenin yapıldığını fakat execute edilmediğini yani çalıştırılmadığını belirtir. Yeşil ise düğümün başarılı bir şekilde çalıştığını ifade eder. Kırmızı çarpı işareti ise işlemimizde hata olduğunu gösterir.

KNIME’da bazı düğümlerin girdi ve çıktı şekilleri yapacağımız işleme göre farklı biçimlerde olabilmektedir. Örneğin mavi kare modele ait girdi ve çıktıyı ifade ederken, açık renk kırmızı kare veri tabanına bağlanmak için kullanılır.

Sabırla okuduğunuz için teşekkür ederiz. 2.yazımızda dosya okumayı detaylı bir şekilde inceleyeceğiz.

--

--

Mert Alabaş
Data Runner

#datascience #machinelearning #python #r #knime #tableau #powerbı