CRISP-DM Nedir?

Hasan Amanet
alBarakaTech Global
7 min readJul 8, 2020

--

CRISP-DM Süreç Modeli

Bu yazıda veri madenciliği metodolojisi olan CRISP-DM sürecini maddeler ve alt maddeler şekilde açıklamaya çalışacağım. Ayrıntılı bir şekilde anlatmaya çalıştığım bu süreçleri doğru bir şekilde anlamanız veri madenciliği çözümlerinde size büyük katkı sunacaktır. Faydalı olması dileğiyle.

Cross-Industry Standard Process for Data Mining (CRISP-DM) veri madenciliği süreçleri için test edilmiş sağlam bir süreç modelidir. CRISP-DM, iş süreci resmileşmeden önce, verileri içselleştirmekten başlayıp çözümü uygulamaya kadar geçen süreçleri ve gerekli adımları açıkça gösterir.

CRISP-DM süreci

Yukarıdaki şekilden anlaşılacağı üzere veri madenciliğin altı temel aşaması bulunmaktadır. Bu aşamaları takip ederek doğru yolda olduğumuzdan emin olabiliriz. Her aşamanın birbiriyle olan ilişkisini oklar yardımıyla takip edebilirsiniz.

Problemin Tanımlanması (Define Business Problem)

Bu aşamada ilk iş, iş hedefini anlayarak başlamak ve çözülecek sorunun resmi bir tanımını oluşturmaktır. Aşağıdaki adımlar problemin tanımlanması için çok önemlidir.

- Üzerinde çalıştığımız konunun uzmanlarıyla fikir alışverişinde bulunularak çalışılan konu değerlendirilmelidir.

- İlgili birimlerle yapılacak olan görüşmelerde çözülmesi amaçlanan sorun için hedefler belirlenir.

- Bu görüşmelerde mevcut çözümlerin anlaşılması, neyin eksik olduğu ve neyin iyileştirilmesi gerektiğini anlamak çok önemlidir.

- Bu aşamada firmanın veri bilimciden beklentisinin firmanın girdilerine uygun olduğuna dikkat edilmeli ve iş hedefleri tanımlanırken mutlaka başarı kriterleri de tanımlanmalıdır.

Oluşacak Senaryoları Değerlendirme ve Analiz Etme

İş problemimizi net bir şekilde tanımladıktan sonra ilk işimiz probleme ilişkin mevcut senaryoyu analiz etmek ve değerlendirmek olacaktır. Bu süreç üzerinde çalıştığımız sistemde neyin mevcut olup olmadığından başlayıp, kaynaklardan, diğer birimlerden verilerin elde edilmesine kadar çeşitli durumları değerlendirmeyi içerir.

Bu aşamada oluşabilecek risklerin ve beklenmedik durumlarında planlanıp tartışılması gerekmektedir. Sorunun çözülmesi için mevcut durumdaki veriyi, personeli, kaynak süresini ve riskleri farklı açılardan değerlendirmemiz gerekmektedir. Bunların yanı sıra gerekli olacak temel kaynaklar (donanım ve yazılım gibi) ihtiyaçları ve mevcut personel kaynaklarıyla ilgili bir rapor hazırlamanız da fayda vardır. Karşılaşacağınız herhangi bir eksiklikte bu bilgilerin elinizin altında olması size kolaylık sağlayacaktır. Bu raporda olması gereken bir diğer husus iş birimlerin varsayımlarını ve iş kısıtlarını belirlemektir. Tabi sadece bu kısıtları belirlemek yetmeyecek, mevcut verilerle bu varsayımları ve kısıtları doğrulamanız gerekecektir. Bunun için istatistiksel analizler yapmanız gerekse bile bunları yapmakta fayda vardır.

İş zaman çizelgesi, mevcut kaynaklar, personel, veriler ve finansal kaynaklı risklerde dahil olmak üzere projeyle ilgili tüm riskleri tespit etmek gerekmektedir. Burada amaç olası tüm senaryoları düşünmek ve bu senaryolar ışığında b ve c planlarını hazırlamaktır.

Proje çıktılarının şirket vizyonuyla uyumlu olup olmadığından emin olmak için başarı ölçütlerini ana hatlarıyla burada da belirlemek gerekmektedir.

Veri Madenciliği Sorunlarının Tanımlanması

Bu aşama başarı kriterleri, iş probleminin tanımlanması, tüm risklerin belirlenmesi, kısıtların ve varsayımların tespit edilmesinden sonra başlayan ön analiz aşaması olarak değerlendirilebilir. Burada ekip ruhuyla çalışmak önemlidir. Analistler, veri bilimciler ve yazılım geliştiricilerin teknik ayrıntıları tartışmaları ve uyumlu bir şekilde çalışmaları gerekmektedir.

Ekip olarak tüm çözüm araçları, algoritmaları ve teknikleri değerlendirerek çözüme götürecek olası makine öğrenimi ve veri madenciliği teknikleri belirlenmelidir. Burada dikkat edilmesi gereken nokta oluşturulacak çözüm metodolojisi uçtan uça düşünülmelidir. Çözüm çıktısının ne olacağına ve mevcut iş bileşenleriyle nasıl entegre edileceğini belirlemeniz gerekmektedir. Bir veri bilimcinin gözüyle başarı kriterini belirlemeyi unutmayın. Örneğin, tahminlerin en az %80 doğru olacağı şeklinde.

Proje Planı

Bu aşama iş anlama aşamasındaki son adımdır. Bu aşamada önceki süreçleri göz önünde bulundurarak bir proje planı oluşturmanız gerekmektedir. Somut çıktılara özen göstermeye dikkat ediniz. Bu aşamada dikkat etmeniz gerekenleri maddeler halinde yazmaya çalışalım.

- Problem için iş hedeflerinin tanımlanması

- Veri madenciliği işlemleri için başarı kriterlerinin belirlenmesi

- Bütçenin ve kaynakların belirlenmesi

- Makine öğrenme algoritmalarının ve veri madenciliği yöntemlerinin tüm ayrıntılarıyla açık ve anlaşılır şekilde ifade edilmesi

- Tahmini iş paketleri ve risklerle tanımlanan CRISP-DM modelinin altı aşamasını da içeren proje planı

Buraya kadar anlatılanların tamamı CRISP-DM modelinin ilk aşamasını oluşturmaktadır.

Veriyi Anlama

İkinci aşama verinin derinliklerine bir dalış yapılmasını ve analiz sürecine başlamadan önce veriyi daha ayrıntılı olarak anlamayı amaçlayan veriyi anlama aşamasıdır.

Bu aşamada verilerin toplanması, özelliklerinin tanımlanması, keşifsel analizlerin yapılması ve veri kalitesinin değerlendirilmesi işlemleri yapılmalıdır. Bu aşamayı kesinlikle atlamayın. Çünkü kötü, kalitesiz, ilgisiz verilerle veya mevcut veriler hakkında yetersiz bilgiyle sonraki aşamalara geçmek süreci olumsuz etkileyecektir.

Veri Toplama

Bu aşama iş hedefi için gerekli olan tüm verileri elde etmek, düzenlemek ve toplamak için gerçekleştirilir. Genellikle bu işlem şirketlerin geçmiş veri ambarlarından veya veri göllerinden temin edilir. Firmada var olan verilere veya başka ek verilere ihtiyaç olup olmadığına bağlı olarak bir değerlendirme yapılmalıdır. Bu ek veriler webten, sosyal medya ortamlarından yani açık veri kaynaklarından elde edilebileceği gibi anketlerden elde edilen verilerde olabilir. Üzerinde çalıştığınız probleme göre buna siz karar vermelisiniz.

Veri Tanımlama

Bu süreç, veri açıklaması, kaynakları, hacmi, nitelikleri ve ilişkileri hakkında daha fazla bilgi edinmek için veriler üzerinde ilk analizin yapılmasını içerir. Burada ayrıntılar belirledikten sonra eksiklerin olması durumunda ilgili birime bildirilmelidir. Veri kaynakları (SQL, NoSQL, Big Data vs.) veri hacmi (boyut, kayıt sayısı, toplam veritabanları, tablolar), veri öznitelikleri ve tanımları (değişkenler, veri türleri), ilişki ve haritalama şemaları (nitelik temsillerini anlama), temel tanımlayıcı istatistikler (ortalama, medyan, varyans) incelenmelidir. Burada firma için hangi özelliklerin önemli olduğuna odaklanmanız gerektiğini unutmayın.

Keşifsel Veri Analizi

EDA olarak da bilinen keşifsel veri analizi, veri madenciliği sürecinin ilk büyük aşamasıdır. Burada temel amaç veri üzerinde detaylı araştırma yapmak ve veriyi anlamaktır. Çeşitli veri özelliklerine bakmak, ilişkilendirmeler ve korelasyonlar bulmak varsa veri kalitesi sorunlarını not etmek için tanımlayıcı istatistikleri ve grafikleri kullanmalısınız. Bu aşamada,

- Veri özelliklerini keşfedin, tanımlayın ve görselleştirin

- Sorun için en önemli görünen veri ve öznitelik alt kümelerini seçin

- Korelasyonlar ve ilişkileri bulun

- Varsa eksik verileri tespit edin.

Veri Kalitesi Analizi

Veri kalitesi analizi, veri setlerimizdeki verilerin kalitesini analiz ettiğimiz ve verileri daha fazla analiz etmeden veya modelleme işine başlamadan önce veriyle ilgili sorunları çözdüğümüz bölümdür. Bu aşama çözülmesi gereken hataları, eksikleri ve sorunları belirlediğimiz veri anlam aşamasındaki son aşamadır. Veri kalitesi analizinin odak noktası,

- Eksik değerler

- Tutarsız değerler

- Veri hatalarından kaynaklanan yanlış bilgi

- Yanlış meta veri bilgileri

Veri Hazırlama

CRISP-DM sürecindeki üçüncü aşama problem ve ilgili veri seti hakkında yeterli bilgi edindikten sonra gerçekleşen veri hazırlama aşamasıdır. Veri hazırlama, analiz veya makine öğrenme modelini çalıştırmadan önce verileri temizlemek, değiştirmek, düzenlemek ve hazırlamak için gerçekleştirilen bir dizi işlemi içermektedir. Bu aşama veri madenciliği süreçlerinde en çok zaman alan aşamadır. Proje tamamlanma süresinin %60 — %70’lik kısmını bu aşama almaktadır. Dolayısıyla çok ciddiye almamız gereken bir süreçtir. Çünkü daha öncede söylediğimiz gibi kötü veriler kötü modelleme, kötü performans ve kötü sonuçlara neden olmaktadır.

Veri Dönüştürme

Veri dönüştürme işlemi veri işleme, temizleme ve normalleştirme işlemlerini içerir. Ham formdaki verilerle model oluşturmak doğru değildir. Makine öğrenmesi modeli için verileri formuna uygun olarak işlemek hataları ve tutarsızlıkları temizlemek gerekmektedir. Bu aşamada

- Eksik değerlerle başa çıkma (satırları kaldırma, eksik değerli doldurma)

- Veri tutarsızlıklarını düzeltme

- Yanlış meta değerleri ve açıklamaları düzeltme

- Verileri ihtiyaç duyulan formatlara göre düzenleme ve biçimlendirme (csv, json)

İşlemlerini dikkatlice uygulamalısınız.

Öznitelik Üretme ve Seçme

Veriler gözlemlerden yani satırlardan veya öznitelik yani sütunlardan oluşur. Öznitelik oluşturma süreci, Makine Öğrenimi sürecinde özellik mühendisliği olarak da bilinir. Öznitelik oluşturma, temel olarak bazı kurallara, mantığa veya hipoteze dayalı olarak mevcut özniteliklerden yeni öznitelikler veya değişkenler oluşturmaktadır. Basit bir örnek vermek gerekirse bir kuruluştaki çalışanlar için tarih alanına dayalı yaş adında yeni bir değişken oluşturma işlemi öznitelik üretme işlemidir.

Özellik seçimi temel olarak öz niteliğin önemi, kalitesi, ilişki düzeyi, varsayımlar ve kısıtlamalar gibi parametrelere dayalı olarak veri kümesinden bir özellik veya özelliğe ait alt küme seçmektir. Bazı durumlarda verilere dayalı ilgili öznitelikleri seçmek için Makine Öğrenimi yöntemlerini kullanmamız gerekebilir. Bu işleme özellik seçimi veya öznitelik seçimi adı verilir.

Modelleme

CRISP-DM sürecindeki dördüncü aşama olan modelleme aşaması, iş problemlerini çözmek için temiz, düzenlenmiş veriler ve öznitelik seçimi konusunda tüm analizlerin yapılmasından sonraki aşamadır. Bu süreç model değerlendirmesi ve modellemeye giden önceki tüm adımlarla birlikte tekrarlanan bir süreçtir. Temel amaç başarı kriterlerimizi, veri madenciliği hedeflerimizi ve bunun yanı sıra iş hedeflerimizi karşılayan en iyi modele ulaşmak için birden fazla model oluşturmaktadır.

Modelleme Süreci

Modelleme Tekniklerini Seçme

Bu aşamada veri madenciliği sorunlarını tanımlama aşamasında listelenen ilgili Makine Öğrenimi ve veri madenciliği araçlarının, tekniklerin ve algoritmalarının bir listesini ayarlamalısınız. Sorunun çözümünde veri bilimcilerden gelen öneriler ve içgörülere dayanarak bilimsel olarak kanıtlanmış tekniklerden seçimler yapılmalıdır. Bu seçim veriler, iş hedefleri, veri madenciliği hedefleri, algoritma gereksinimleri ve kısıtlamalarla belirlenir.

Model Oluşturma

Model oluşturma süreci veri kümemizdeki verileri ve özellikleri kullanarak modeli eğitmek olarak da bilinir. Bu aşamada iş hedeflerinin başarı ölçütlerine en yakın çıktıları veren en iyi modeli elde etmek için çoklu modelleme yaklaşımı kullanılır. Burada dikkat edilmesi gereken nokta oluşturulan modeller, kullanılan model parametreleri ve sonuçlarıdır.

Modellerin Değerlendirilmesi ve Ayarlanması

Bu aşamada her modeli doğruluk (accuracy), hassasiyet (precision), kapsama (recall), F1 skoru vb. metriklere göre değerlendirmelisiniz. Model parametrelerini, bize en iyi sonuçları veren modele ulaşmak için çapraz doğrulama gibi tekniklere göre ayarlamalıyız. Yapılan ayarlamaların model performansı açısından istenilen sonucu verip vermediğini kontrol etmeliyiz. Model ayalarma makine öğrenmesi dünyasında hiperparametre optimizasyonu olarak da adlandırılır.

Model Değerlendirme

İstenilen ve ilgili sonuçları sağlayan modellerimiz olduğunda aşağıdaki parametrelere dayanarak modeli ayrıntılı bir şekilde incelemek gerekir.

- Model performansı, tanımlanan başarı kriterlerine uygun mu?

- Modellerden elde edilen sonuçlar tutarlı mı?

- Model anlaşılır mı?

- Model ilerleyen süreçte geliştirilebilir mi?

- Model değerlendirme sonuçları açısından tatmin edici mi?

Bu aşamada birden fazla model oluşturduğumuzu ve her model için bu soruları sormamız gerektiğini unutmayın.

Değerlendirme

CRISP-DM sürecinin beşince aşaması olan bu aşama hedeflerimiz için gerekli başarı kriterlerini karşılayan ve istenilen performansa sahip olan modellere ulaştığımız aşamadır. Değerlendirme aşaması karar verilen modellerin ve bunlardan elde edilen nihai sonuçların detaylı olarak değerlendirilmesini ve gözden geçirilmesini içerir.

Bu aşamada dikkat edilmesi gerekenler,

- Modelleri, sonuçlarına göre iş hedeflerine en uygun olacak şekilde sıralama

- Veri düzenleme, veri modelleme ve tahmine kadar tüm makine öğrenmesi sürecinin incelenmesi

- Modelin her adımı incelenmeli ve eksiklik ya da hata olduğu düşünülen noktaların iyileştirilmesine çalışılmalı

- İş tarafıyla model çıktılarının değerlendirilip geri bildirimler alınmalı

- Elde edilen geri bildirimler göz önünde bulundurularak modelin dağıtım için iş tarafıyla mutabakada varılmalı

Model Dağıtımı

CRIPS-DM sürecinin son aşaması oluşturulan modelin dağıtımı ve sorunsuz bir şekilde çalışması süreçlerini içermektedir. Bu süreçte modelin canlıya alınması için firma alt yapısı ve eldeki imkanlar dikkate alınmalıdır. Modellerin performanslarını sürekli olarak değerlendirmek, sonuçları takip etmek, gerektiği durumda modeli devre dışı bırakmak veya güncellemek için düzenli bakım planı hazırlanmalısınız.

Kaynaklar

1 — Big Data Analytics — Venkat Ankam

2- Begining Data Science with Python and Jupyter — Alex Calea

3- Machine Learning Applications Using Python — Puneet Mathur

4- Practical Machine Learning with Python — Dipanjan Sarkar, Kaghav Bali, Tushar Sharma

--

--

Hasan Amanet
alBarakaTech Global

Data Scientist- Analitik Çözüm Tasarımı - Albaraka Tech Global