Makine Öğrenmesi ve Veri Bilimine Yeni Başlayanlar İçin 10 Veri Kümesi

Furkan MT
Furkan MT
Jul 21, 2019 · 3 min read

Teknoloji alanındaki yetenek açığını kapatmak, yazılım alanında gençlerin geleceklerine değer katmak için 3 yıl önce yolculuğumuza başladık. Yüzlerce gencin katılımıyla büyürken, yüzlerce gencin ürettiklerinden ve projelerinden ilham aldık. #KodluyoruzLab ile Kodluyoruz Akademi Mezunlar Kulübü’nden gençler yolculuğumuz boyunca ürettiklerini daha fazla gence ilham olmak için paylaşıyor. Şimdi gençleri dinleme zamanı…

2019 “Python Yapay Zeka ve Makine Öğrenimi” bootcamp mezunu Çağla Toprak tarafından hazırlanan “Makine Öğrenmesi ve Veri Bilimine Yeni Başlayanlar İçin 10 Veri Kümesi” başlıklı yazı sizlerle. Keyifli okumalar.

Bu yazıda, makine öğrenmesi ve veri bilimine başlayanlar için yararlı olabileceğini düşündüğümüz 10 veri kümesi paylaşacağız. Bu veri setleri; başlangıç seviyesi kullanım için oldukça kolay, karmaşık veri bilimi tekniklerini gerektirmeyen veri kümelerinden oluşmaktadır. Veri setlerini, görselleştirme kütüphaneleri ile zenginleştirip temel regresyon veya sınıflandırma algoritmaları ile çözebilirsiniz.


1- İris Çiçeği

İris çiçeği veri seti, sınıflandırma literatüründeki en iyi veri setlerinden biridir. Genellikle makine öğreniminde, “Merhaba Dünya!” demek olarak adlandırılır. Veri kümesi, sayısal özelliklere sahiptir ve yeni başlayanlar, verilerin nasıl yüklenip işleneceğini çözmelidir. İris çiçeği veri seti, belleğe kolayca sığacak kadar küçüktür ve başlamak için herhangi bir özel dönüşüm veya ölçeklendirme gerektirmez.

İris Çiçeği Veri Seti


2- Öğrencilerin Akademik Performans Kümesi

Konusu eğitim olan bu veri seti, 480 öğrenci kaydı ve 16 özellikten oluşmaktadır. Bu özelliklere üç ana kategoride bakarsak:

(1) Cinsiyet ve uyruk gibi demografik özellikler.

(2) Eğitim aşaması, seviyesi ve bölüm gibi akademik geçmiş özellikleri.

(3) Sınıfta el kaldırmak, kaynakları açmak, ebeveynlerine verilen anketlerin cevaplanması ve okul tatmini gibi davranışsal özellikler.

İçerisinde herhangi boş değerler barındırmadığından, görselleştirme ve modelleme için iyi bir başlangıç.

Öğrencilerin Akademik Performans Kümesi Veri Seti


3- Meme Kanseri Teşhisi

Meme kanseri, dünya genelinde kadınlar arasında en yaygın görülen kanserlerden biridir. Yeni kanser vakalarının büyük çoğunluğunu oluşturmakta ve dünyadaki istatistiklere göre, kansere bağlı ölümleri temsil etmekte ve de günümüz toplumunda önemli bir halk sağlığı problemi hâline getirmektedir. Bu nedenle meme kanserinin doğru teşhisi ve hastaların kötü veya iyi huylu gruplara sınıflandırılması, çok fazla araştırmanın konusudur. Bizler de bu veri setini kullanarak; hem hastalık hakkında bilgi sahibi olabilir hem de veri setindeki çeşitli özellikleri kullanarak, hastanın kanser aşamasını sınıflandırıp hastalarda bulunan meme kanserinin, iyi veya kötü huylu olup olmadığını görebiliriz.

Meme Kanseri Teşhisi Veri Seti


4- Boy ve Ağırlıklar Veri Kümesi

Yeni başlayanlar için yine ilk aşamada ideal bir veri seti olan boy ve ağırlıklar veri kümesi, 25.000 satır ve 3 sütundan oluşmaktadır. Bu veri kümesi ile bir kişinin boyunu ve ağırlığını tahmin edebilirsiniz.

Boy ve Ağırlıklar Veri Seti


5- Şarap Kalitesi

Veri seti, Portekiz “Vinho Verde” şarabının, kırmızı ve beyaz çeşitlerinin incelemesini ele alıyor. 4898 satır ve 12 özellik barındıran bu veri kümesi; üzerinde sınıflandırma, regresyon yapmak için ideal.

Şarap Kalitesi Veri Seti


6- Titanik

Tarihteki en kötü yolcu gemisi felaketlerinden biri olan Titanik’te, tahmini 2224 yolcu vardı ve bu yolculardan 1500’den fazlasının öldüğü ön görülmekte. Biz, elimizde olan bu veri seti ile felakete daha yakından bir inceleme yapıp bir yolcunun, değişkenlere göre hayatta kalma olasılığını tahmin edebiliriz.

Titanik Veri Seti


7- Kalp Hastalıkları

Kalp hastalıkları veri kümesi, 303 hastadan ve 75 özellikten oluşmaktadır. Veri setindeki bazı verilerin, temizlenmeden ve bir ön işlemeden geçmesi gerekiyor. Bu açıdan ele aldığımızda, bizi geliştirecek ve muhakkak faydalı bir çalışma olacaktır.

Kalp Hastalıkları Veri Seti


8- Avustralya Yağmur Tahmini

Bu veri seti, Avustralya'daki birçok hava istasyonundan günlük hava gözlemleri içermektedir. Problemimiz: Ertesi gün yağmur yağmış mıydı? “Evet.” veya “Hayır.”

Avustralya Yağmur Tahmini Veri Seti


9- Türkiye Öğrenci Değerlendirme Veri Kümesi

Türkiye öğrenci değerlendirme veri kümesi; öğrencilerin, farklı dersler için doldurdukları bir değerlendirme formuna dayanmaktadır. Her değerlendirme sorusu için katılım, zorluk, puan gibi farklı özellikler bulunmaktadır. 5820 satır ve 33 sütundan oluşan bu veri seti ile eğitmen performansını öngörüp öğrencilerin, eğitim sistemi kalitesini arttırma konusundaki başarılarını etkileyen faktörleri inceleyebiliriz.

Türkiye Öğrenci Değerlendirme Veri Seti


10- Kan Bağışı

Veri setimiz, 748 satır ve 5 sütun içermekte ve Tayvan'daki bir mobil kan bağışı aracından toplanan verilerden oluşmaktadır. Bu veri seti ile donörün, bir başka zaman bağış için tekrar geldiğinde kan verip vermeyeceğini tahmin edebiliriz.

Kan Bağışı Veri Seti

Bu yayın Avrupa Birliği’nin yardımıyla hazırlanmıştır. Bu yayının içeriğinden yalnızca Kodluyoruz Derneği sorumlu olup, herhangi bir şekilde AB’nin, Türkiye Cumhuriyeti’nin ve Dışişleri Bakanlığı AB Başkanlığının görüşlerini yansıttığı şeklinde yorumlanamaz.

Furkan MT

Written by

Furkan MT

Front-end Developer — https://github.com/furcan

KodluyoruzLab

Kodluyoruz | KodluyoruzLab ile Kodluyoruz Akademi Mezunlar Kulübü’nden gençler yolculuğumuz boyunca ürettiklerini @kodluyoruz ekibinin desteğiyle daha fazla gence ilham olmak için paylaşıyor.

More From Medium

More on Developer from KodluyoruzLab

More on Kodluyoruz from KodluyoruzLab

More on Kodluyoruz from KodluyoruzLab

Kodluyoruz’dan Kırıkkale’ye: Domino Etkisi

More on Kodluyoruz from KodluyoruzLab

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade