Popüler Veri Madenciliği Araçları

Published in

Kodcular

6 min readMar 28, 2018

Veri Madenciliği Nedir?

Veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma ve bilgiyi anlamlı hale getirme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır.

Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir.

Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.

Bu yoğunlukta veriyi işleyebilmek için kullanılan popüler araçlardan bazılarını sizler için derledik.

1-)RapidMiner

Java programlama dili kullanılarak yazılmıştır. Kod yazma ihtiyacını neredeyse sıfıra indirdiği için kullanıcılar tarafından tercih edilir, kod ihtiyacının az olması en temelde hata riskini minimuma indirir. RapidMiner, veri yükleme ve dönüşüm (çıkarma, dönüşüm, yükleme (ETL)), veri ön işleme ve görselleştirme, öngörülü analitik ve istatistiksel modelleme, değerlendirme ve dağıtım da dahil olmak üzere veri madenciliği ve deep learning özelliklerine sahiptir.

RapidMiner, analitik iş akışlarını tasarlamak ve yürütmek için bir GUI sağlar. Bu iş akışlarına RapidMiner’de “Süreçler” denir ve bunlar birden fazla “Operatör” içerir. Her operatör süreç içinde tek bir görev gerçekleştirir ve her operatörün çıktısı bir sonraki işin girişini oluşturur. Alternatif olarak, motor diğer programlardan çağrılabilir veya API olarak kullanılabilir. Bireysel fonksiyonlar komut satırından çağırılabilir. RapidMiner öğrenme şemaları, modeller ve algoritmalar sağlar ve R ve Python komut dosyalarını kullanarak genişletilebilir.

RapidMiner işlevselliği, RapidMiner Pazaryeri üzerinden sunulan ek eklentilerle genişletilebilir. RapidMiner Marketplace, geliştiricilerin veri analizi algoritmaları oluşturması ve bunları topluluğa yayınlaması için bir platform sağlar.

2-) Weka

Birkaç standart veri madenciliği görevini, daha spesifik olarak, veri ön işleme, kümeleme, sınıflandırma, gerileme, görselleştirme ve özellik seçimi konularını desteklemektedir Weka, veri analizleri ve tahmini modelleme için görselleştirme araçları ve algoritmaları topluluğu ile birlikte bu işlevlere kolay erişim için grafik kullanıcı arayüzleri içerir. Grafik kullanıcı arayüzleri sayesinde kullanım kolaylığı sağlar.

Weka, Java Database Connectivity kullanarak SQL veritabanlarına erişim sağlar ve bir veritabanı sorgusu tarafından döndürülen sonucu işleyebilir. Weka Deeplearning4j ile derin öğrenime erişim sağlar. Çok ilişkili veri madenciliği yapma yeteneği yoktur, ancak bağlı veritabanı tablolarından oluşan bir database’i , Weka kullanılarak işlenmeye elverişli tek bir tabloya dönüştürmek için ayrı bir yazılım bulunur. Sıra modellemesi özelliğine sahip olması bir diğer avantajıdır.

3)Orange

Veri görselleştirme, makine öğrenmesi, veri madenciliği ve veri analizi için bileşen tabanlı bir görsel programlama yazılımı paketidir.

Orange bileşenlerine pencere öğeleri denir ve basit veri görselleştirme, alt grup seçimi ve önişleme, öğrenme algoritmalarının ampirik değerlendirmesine ve tahmini modellemeye kadar uzanır.

Görsel programlama, iş akışlarının önceden tanımlanmış veya kullanıcı tarafından tasarlanmış widget’ları bağlayarak oluşturulduğu bir arayüz üzerinden gerçekleştirilirken, ileri düzey kullanıcılar Orange’ı veri işleme ve ya bir Python kütüphanesi olarak kullanabilirler.

Turuncu, kullanıcının widget yerleştirdiği ve bir veri analizi iş akışı oluşturduğu bir tuval arayüzünden oluşur. Pencere öğeleri, verileri okurken, veri tablosu gösterirken, özelliklerin seçilmesi, öğrenme tahmincileri, öğrenme algoritmalarının karşılaştırılması, veri öğelerinin görselleştirilmesi vb. Gibi temel işlevleri sağlar. Kullanıcı, görselleştirmeleri interaktif olarak keşfedebilir veya seçilen alt kümeyi diğer widget’lere besleyebilir.

4) R

İstatistiksel hesaplama ve grafikler için bir programlama dili ve özgür yazılım ortamıdır.İstatistik kurumu tarafından fonlanmaktadır. R dili, istatistiksel yazılım ve veri analizi geliştirmek için istatistikçiler ve veri madencileri arasında yaygın olarak kullanılmaktadır. Anketler, veri madencileri anketleri ve akademik literatür veritabanları üzerine yapılan çalışmalar, R’nin popülerliğinin son yıllarda önemli ölçüde arttığını gösteriyor.

R yorumlanmış bir dildir; kullanıcılar genellikle bir komut satırı tercümanı aracılığıyla erişirler.

APL ve MATLAB gibi diğer benzer dillerde olduğu gibi, R de matris aritmetiğini destekler. R veri yapıları, vektörler, matrisler, diziler, veri çerçeveleri (ilişkisel bir veri tabanındaki tablolara benzer) ve listeleri içerir. R’nin genişletilebilir nesne sistemi, (diğerlerinin yanında) nesneleri içerir: bunlar regresyon modelleri, zaman serileri ve coğrafi uzamsal koordinatlar şeklindedir

Başlıca istatistikçiler ve istatistiksel hesaplama ve yazılım geliştirme için bir ortam gerektiren diğer pratisyenler tarafından kullanılsa da, R, GNU Octave veya MATLAB ile karşılaştırılabilir performans göstergeleri ile genel bir matris hesaplama araç kutusu olarak da çalışabilir.

5-Knime

Veri ön işleme üç ana bileşene sahiptir: ekstraksiyon, dönüşüm ve yükleme. KNIME her üçünü de yapıyor. Veri işleme için düğümlerin birleştirilmesine izin vermek için size bir grafik kullanıcı ara birimi sağlar. Açık kaynak veri analizi, raporlama ve entegrasyon platformudur. KNIME ayrıca modüler veri boru hattı konsepti aracılığıyla makine öğrenimi ve veri madenciliği için çeşitli bileşenleri entegre eder ve iş zekası ve finansal veri analizinin önünü açar.

Java’da yazılmış ve Eclipse üzerine kurulu olan KNIME, genişletmek ve eklentileri eklemek kolaydır. İlave işlevler hareket halindeyken eklenebilir. Çekirdek sürümde birçok veri entegrasyon modülü bulunmaktadır.

6-Rattle

R kullanarak sağlanan veri madenciliği için bir grafik kullanıcı ara birimidir.

Rattle, R kullanarak veri madenciliği için popüler bir GUI’dir. Verilerin istatistiksel ve görsel özetlerini sunar, verileri kolayca modellenebilecek şekilde dönüştürür, veriden denetlenmemiş ve denetlenen makine öğrenme modelleri oluşturur, modellerin performansını grafiksel olarak sunar ve üretime geçiş için yeni veri setlerini puanlandırır. Anahtar özellikler, grafiksel kullanıcı ara birimindeki tüm etkileşimlerinizin, Rattle arayüzünden bağımsız olarak R’de kolayca çalıştırılabilen bir R komut dosyası olarak yakalanmasıdır.

Rattle, Açık Kaynak Yazılımıdır ve kaynak kodu Bitbucket deposundan edinilebilir. Kodu gözden geçirme, istediğiniz herhangi bir amaç için kullanabilme ve istediğiniz gibi genişletme özgürlüğünü kısıtlama olmaksızın verir.

7- Oracle

Veri tabanında çeşitli veri madenciliği algoritmaları uygulanır. Bu uygulamalar doğrudan Oracle database çekirdeği ile bütünleşir ve doğal olarak ilişkisel veritabanı tablolarında depolanan veriler üzerinde çalışırlar. Bu, bağımsız madencilik / analitik sunuculara veri çıkarma veya aktarma ihtiyacını ortadan kaldırır. İlişkisel veritabanı platformu, modelleri güvenli bir şekilde yönetmek ve büyük miktarda veri üzerinde SQL sorgularını verimli bir şekilde yürütmek için idealdir. Sistem, veri madenciliği işlevleri için genel birleşik bir ara birim sağlayan birkaç genel operasyon etrafında organize edilmiştir. Bu işlemler, veri madenciliği modelleri oluşturma, uygulama, test etme ve işleme işlevleri içerir. Modeller veritabanı nesneleri olarak yaratılır ve depolanır ve yönetimi tablo, görünüm, dizin ve diğer veritabanı nesnelerine benzer şekilde veri tabanında yapılır.

8-Tanagra

Araştırma ve akademik amaçlarla Ricco Rakotomala tarafından Lumière Üniversitesi Lyon 2, Fransa’da geliştirilen, makine öğrenme yazılımının ücretsiz bir paketidir.

Tanagra, Görselleştirme, Tanımlayıcı istatistikler, Örnek seçimi, özellik seçimi, özellik oluşturma, regresyon, faktör analizi, kümeleme, sınıflandırma ve ilişki kuralı öğrenimi gibi birkaç standart veri madenciliği görevini desteklemektedir. Mevcut veri madenciliği araçları olarak çalışır. Kullanıcı, bir diyagramda görsel olarak bir veri madenciliği süreci tasarlayabilir. Her düğüm, istatistiksel veya makine öğrenme tekniğidir, iki düğüm arasındaki bağlantı veri aktarımını temsil eder. Ancak, iş akışı paradigmasına dayanan araçların çoğunun aksine, Tanagra çok basitleştirilmiştir. Süreç ağaç şeması şeklinde gösterilir. Sonuçlar HTML formatında gösterilir. Dolayısıyla sonuçları tarayıcıda görselleştirmek için çıktıları vermek kolaydır. Sonuç tablolarını bir elektronik tabloya kopyalamak da mümkündür.

Tanagra istatistiksel yaklaşımlar (parametrik ve parametrik olmayan istatistiksel testler gibi), çok değişkenli analiz yöntemleri (faktör analizi, yazışmalar analizi, küme analizi, regresyon) ve makine öğrenme teknikleri (örn., Sinir ağı, destek vektör makinesi, karar verme) arasında iyi bir uzlaşma sağlar.

9- Sas

SAS, çeşitli kaynaklardan veri toplama, değiştirme, yönetme ve alma ve bunun üzerine istatistiksel analiz yapabilen bir yazılım paketidir. SAS, teknik olmayan kullanıcılar için grafiksel bir nokta-ve-tıklama kullanıcı ara birimi ve SAS dili aracılığıyla daha gelişmiş seçenekler sunar.

SAS programlarının verileri alması ve işleyeceği DATA basamakları ve veriyi analiz eden PROC basamakları vardır. Her adım, bir dizi ifade içerir.

VERİ basamağında, yazılımın bir işlem yapmasına neden olan yürütülebilir ifadeler ve bir veri kümesini okumak veya verilerin görünümünü değiştirmek için talimatlar sunan bildiri beyanları bulunur. DATA basamağının iki aşaması vardır: derleme ve yürütme. Derleme aşamasında bildirimsel ifadeler işlenir ve söz dizimi hataları tanımlanır. Daha sonra yürütme aşaması, her çalıştırılabilir deyimi sıralı olarak işler. Veri kümeleri, “gözlemler” ve “değişkenler” olarak adlandırılan sütunlarla tablo halinde düzenlenir. Ayrıca, her bir veri parçası bir tanımlayıcı ve bir değer içerir. SAS makroları, bir kez kodlanmış ve tekrar eden görevleri gerçekleştirmek için başvurulan kod parçaları veya değişkenlerdir. SAS yazılım paketinde 200'den fazla değişken vardır.

10- Spss

IBM SPSS Modeler, IBM’den veri madenciliği ve metin analiz yazılımı uygulamasıdır. Tahmini modeller oluşturmak ve diğer analitik görevleri yapmak için kullanılır. Kullanıcıların programlamadan istatistiksel ve veri madenciliği algoritmalarından yararlanmalarını sağlayan görsel bir arayüze sahiptir. Başlıca amaçlarından biri, veri dönüşümlerinde gereksiz karmaşıklığın ortadan kaldırılması ve karmaşık tahmini modellerin kullanımının çok kolay olmasıydı. IBM’in 2009'daki SPSS satın alımını takiben ürünün adı şu an IBM SPSS Modeler olarak değiştirildi.

Yapay Zeka ve Makine Öğrenmesi ile ilgileniyorsanız hemen aşağıdaki formdan Haftalık Bültenimize abone olabilirsiniz.

Yazıyı beğendiyseniz de bizi Medium üzerinden takip edip desteğinizi gösterebilirsiniz.