3. Veri Bilimi Proje Döngüsü

Ali Kaan Arbay
Ebebek Tech
Published in
4 min readNov 10, 2021
CRISP-DM süreç modeli

Herkese merhaba bundan önceki yazılarda yapay zeka tarihi, yapay zeka, veri bilimi ve makine öğrenmesi gibi kavramlar tanıtılmıştı.

Bu yazıda ise bir veri bilimi projesinin proje döngüsü işlenmiştir. Fakat ondan önce döngü hakkında kısa bir bilgilendirme yapılmıştır.

Veri bilimi proje döngüsü (CRISP-DM) nedir?, CRISP-DM’in amacı nedir?, CRISP-DM’ in tarihsel gelişimi nasıldır?

CRISP-DM, veri madenciliği uzmanları ve veri bilimciler tarafından kullanılan ortak yaklaşımları tanımlayan açık standart(open standart) bir iş-süreç modelidir.

CRISP-DM süreç modeli 1996 yılında tasarlandı ve 1997 yılında bir Avrupa Birliği projesi haline geldi.

Mart 1999'da Brüksel’de metodolojinin ilk versiyonu sunuldu ve o yıl içinde veri madenciliği kılavuzu olarak yayınlandı.

CRISP-DM, veri madenciliği çalışmalarında mevcut sorunları çözen belirli avantajları nedeniyle bu alanda en yaygın kullanılan modeldir.

CRISP-DM, en temel haliyle 6 adımlı bir süreçten oluşur. Bu sürecin adımları aşağıda verilmiştir.

  • Business Understanding (İş Süreçlerinin Anlaşılması)
  • Data Understanding (Verinin Anlaşılması)
  • Data Preparation (Veri Önişleme Aşaması)
  • Modeling (Model Aşaması)
  • Evaluation (Değerlendirme Aşaması)
  • Deployment (Ürün Aşaması/Canlıya Alma)

Aşamalar kesin bir şekilde yukarıdaki sıra ile gerçekleşmek zorunda olmadığı gibi gerektiği takdirde farklı aşamalar arasında yer değişikliği olabilir.

CRISP-DM iş süreç modelinin görselleşmiş hali yukarıda gösterildiği gibi aşağıda tekrardan verilmiştir.

Bundan sonraki kısımda yukarıda belirtilen bütün adımlar ayrıntılı bir şekilde açıklanmıştır.

CRISP-DM Süreci Aşamaları

  1. İş Süreçlerinin anlaşılması:

Bu adımda iş problemi ortaya konur. Problemin neden çıktığı, problemin çözümündeki beklentiler, problemin ilgili olduğu veri kaynakları ve veri akışları tespit edilir. Problemin çözümü sonunda hangi çıktıların beklendiği tanımlanır.

Örnekler vermek gerekirse tarım alanında bir problem, Doğu Anadolu bölgesinde büyükbaş hayvanlara verilecek olan yem miktarının tahmin edilmesi veya perakende temelli e-ticaret alanında çalışan bir firma için, hangi müşterilerin şikayeti olduğunun önceden tespit edilmesi veya Telekom alanındaki bir hangi müşterinin rakip Telekom firmasına geçeceğinin önceden tahmin edilmesi, veya reklamcılık alanında, kurumların talepleri doğrultusunda onlar için özel olarak hazırlanan hangi televizyon reklamlarının satışlar üzerinde daha etki olduğunun tahmin edilmesi örnek olarak verilebilir.

2. Verinin anlaşılması:

İkinci adımda, belirlenen probleme uygun olacak şekilde veriler toplanır. Burada çok dikkat edilmesi gereken husus bu adıma geçmeden önce problem tanımının doğru yapılmasıdır. Eğer bu durum göz önüne alınmazsa, eldeki verinin tamamı gereksiz yere işleneceğinden dolayı projenin geri kalanı baştan başarısızlıkla sonuçlanacaktır.

Bu adımda ayrıca veri ile ilgili problemler de ortaya çıkarılır. Örneğin verinin gürültülü veya kirli olması, eksik veri içerilmesi gibi problemlerin tespit edilmesi, verinin yapısal, yapısal olmayan olacak şekilde verinin tipinin tespit edilmesi bu aşamada yapılır. Gerekli görülürse ilave veri toplanır veya eldeki veriler üzerinden nasıl işlemler yapılarak verinin zenginleştirilebileceğine bu aşamada karar verilir.

3. Veri Ön İşleme aşaması:

Bu adımda önceki adımlarda topladığımız veya elimizde hazır bulunan veri üzerinde yapılacak işlemlere ve bu işlemlerin hangi yöntemlerle yapılacağına karar verilir. Örnek vermek gerekirse, bir önceki adımda, veri üzerinde eksik veriler tespit edilmişti, bu tespite göre eksik olan verinin modele hiç dahil edilmemesi veya bu verinin eksik kısımlarının tamamlama sırasında nasıl bir yöntem izleneceği sonrasında tamamlanması ve değerlendirilmesi gibi kararlar bu aşamada verilir.

Bu adımda yapılan çalışmalar bir önceki adım ile birlikte ele alındığında, literatürde öznitelik mühendisliği (feature engineering) adı verilen bir başlık altında incelenebilir.

4. Model aşaması:

Bu adımda, tanımlanan problem ve veri kaynakları üzerinde bir makine öğrenmesi modeli geliştirilir. Model geliştirildikten sonra, istenen problem çözümüne yönelik olarak iyileştirilir ve optimize edilir.

5. Değerlendirme aşaması:

Bu aşamada, bu adımdan önceki adımların genel bir değerlendirmesi yapılır. İlk adımda konulan başarı kriterlerini ne ölçüde sağladığı test edilir. Örneğin müşterilere ürün tavsiyesi yapan bir sistemin, doğru müşteriye doğru ürün tavsiyesi sonucunda satışları arttırması beklenir ve geliştirilen yeni sistemin, satışlarda ne kadar artış sağladığı ölçülür.

Yukarıdaki örnekler üzerinden açıklayacak olursak müşterilerine doğru reklamı göstermek için veri bilimi projesi geliştiren bir e-ticaret sitesinde, veri bilimi kullanılan ve kullanılmayan iki grup oluşturarak üzerlerinde A/B testi uygulanabilir. Daha sonra ise ya son adıma geçilir veya bütün aşamaların tekrar gözden geçirilmesi için ilk aşamaya geri dönülür.

6. Ürün aşaması:

Eğer bu adıma kadar gelinirse bu adımda, elde edilen çıktılar yardımıyla projeyi yapan kurumun iş geliştirme sürecine başlanır. Büyük veri platformuna uygun halde veya kurumda kullanılan programlama dilleri ve veri akışına uygun hale getirilerek sistemin çalışan bir uygulaması geliştirilir.

Tekrardan yukarıdaki örnekler üzerinden açıklayacak olursak bir e-ticaret sitesindeki reklamların veri madenciliği süreçleri ile yönetileceği bir sitenin kodlanmasına başlanır, reklam gösterimlerine karar verilen adımlarda ilgili değişiklikler yazılarak yeni geliştirilen karar sistemi devreye sokulur ve karar sisteminin verdiği sinyallere göre reklamlar gösterilmeye başlanır.

Sonuç:

CRISP-DM’in projelere getirdiği en büyük kabullerden birisi, bir projeye başlanırken önce problem ve iş süreçlerinin analizinin yapılmasıdır. Bu aşama tamamlandıktan sonra ise verinin analizine başlanılmalıdır.

“Bu veriden nasıl bir proje yaparım?” gibi bir soru CRISP-DM için kabul görmeyen sorularından biridir.

Bunun nedeni bu iş-süreç modelinde verinin toplanması, problem tanımından sonra geldiği içindir. Şayet eğer problem tanımı yapılmadan veri üzerinden projeye geçiliyorsa aslında bir problem çözülmeye çalışılmıyor sadece verinin hikaye olarak anlatılması yapılıyor demektir. Şayet eğer elde veri olmadan sadece problemler üzerinden çözüm aranıyorsa ve veri aşaması zayıf geçiliyorsa, bu durumda da kehanet okunuyor demektir.

CRISP-DM tanıtılmıştır.

Bir sonraki yazıya kadar sağlıcakla kalın :)

KAYNAKÇA:

https://ybsansiklopedi.com/wp-content/uploads/2018/08/crispdm.pdf

--

--