Veri Bilimi Projeleriniz için Renkli Veri Setleri Bulabileceğiniz En iyi 10 Site

Rahime Yeşil
Data Runner
Published in
7 min readJan 2, 2020
Photo by Émile Perron on Unsplash

Yapay zeka ve makine öğrenmesi gibi konuların konuşulduğu günümüz teknoloji dünyasının en değerli varlığı hiç şüphesiz veridir. Teknolojik yenilikler ve dijital dönüşüm ile birlikte artan veri, özellikle devletler ve şirketler için vazgeçilmez bir unsur haline gelmiştir. Şirketler ve devletler veriyi karar alma, strateji geliştirme ve problemlere çözüm bulma gibi bir çok farklı amaçlar doğrultusunda kullanmaktadır. Bunun yanında reklam stratejileri ve pazarlama yöntemlerinde de veri önemli rol oynamaktadır.

Birçok kurum sahip oldukları veri yığınlarından anlamlı çıktılar, örüntüler, öngörüler meydana getirmektedir. Ancak kurumsal verilerin hassasiyeti ve gizliliği gibi konulardan dolayı, kurumların verilerini paylaşması mümkün olamamaktadır. Bu durum siz veri bilimcileri kesinlikle endişeye düşürmemeli, günümüzde global platformlardan da veriler elde edebilmek mümkün hale gelmiştir.

Veri bilimci olma yolunda bir yolcuyum, araştırmacıyım, makine öğrenmesi projesi yapmak istiyorum ama veriye nasıl ulaşacağımı bilmiyorum ya da yeni veri kaynakları keşfetmek istiyorum diyorsanız doğru yerdesiniz demektir.

Bu yazımda sizlere veri bilimi ve makine öğrenmesi projeleriniz için ücretsiz olarak veri setleri elde edebileceğiniz platformlardan bahsedeceğim.

1. Kaggle

Kaggle, makine öğrenimi yarışmalarına ev sahipliği yapan bir veri bilimi topluluğudur. Sitede harici olarak kullanıcılar tarafından sağlanan çeşitli veri setleri de bulunmaktadır ancak bunlar yarışmalar için kullanılan veri setlerinden daha az temizlenmiş olarak önümüze gelebilmektedir. Düzenlediği yarışmalar vasıtasıyla dünyaca ünlü firmaların verileri ile veri bilimcileri bir araya getiren kaggle, yarışmayı kazananlara belirli miktarda para ödülü bile vermektedir. Sitede güncel ve geçmişte düzenlenen yarışmalara ulaşabilir, veri setlerini indirebilirsiniz. Veri setlerinde bulunan kernellerden kullanıcıların paylaştıkları öğretici çözümlere ulaşıp, sizlerde kernel içerikleri oluşturabilirsiniz. Bu topluluğa dahil olmanız için tek yapmanız gereken siteye kayıt olmak.

Örnek veri setleri:

Satellite Photograph Order: Uydudan çekilmiş bir dizi Dünya fotoğrafı, bu veri setindeki amaç hangi fotoğrafların diğerlerinden daha önce çekildiğini tahmin etmektir.

Manufacturing Process Failures: Bosch markasının üretim sürecinde ölçülen değişkenlerin bir toplamı olan veri setindeki amaç imalat ile ilgili hataları tahmin etmektir.

2. UCI Machine Learning Repository

UCI Machine Learning Repository, University of California Irvine’nin makine öğrenmesi çalışmaları için veri depolama hizmeti olarak sunduğu, web üzerindeki en bilinen ve en eski veri depolarından biridir. Titanic, Iris gibi popüler veri setlerinden Air Quality ve GPS trajectories gibi zengin veri kaynaklarına sahip olan site, diğer benzer sitelerden farklı olarak 450’den fazla üzerinden temizleme işlemleriyle vakit kaybetmeden makine öğrenmesi projelerinizde kullanabileceğiniz, modellemeye hazır veri setleri sunmaktadır. Aynı zamanda siteye üye olmanıza gerek kalmadan veri setlerini indirebilir, veri setleri hakkındaki değişken tip ve bilgisi, gözlem sayısı, yayınlanma tarihi, problem bilgisi ve akademik makalelere kadar her türlü bilgiye kolaylıkla ulaşabilirsiniz. Sitedeki veri setleri her ne kadar küçük olma eğiliminde olsalar da makine öğrenmesi projeleri için zengin kaynaklar sunmaktadır.

Örnek veri setleri:

Wine classification: Veri setinin 13 farklı değişkenine bakılarak şarapların kalite skalalarına göre sınıflandırılmasına dair bir veri setidir.

Email spam: E-postalarının spam olup olmadıklarına dair etiket içeren üzerinde sınıflandırma yapabileceğiniz bir veri setidir.

3. FiveThirtyEight

Eğer verilerle ilgileniyorsanız, muhtemelen FiveThirtyEight’i duymuştursunuz. FiveThirtyEight için dünyanın en eski veri gazeteciliği merkezlerinden biridir diye bahsedersek yanlış olmaz. Önceleri siyasi konulara odaklanarak bir anket toplayıcı olarak faaliyet gösteren site,daha sonra spor, toplumsal konular ve daha fazlasını kapsayacak şekilde veri yelpazesini genişleterek veri setlerini halka açık hale getirdi. Ücretsiz veri setlerinin ve veri bilimine adanmış bilgilendirici makalelerin önemli ölçüde saklanması karışımı olan FıveThirtyEight makalelerinde kullanılan veri setlerini Github ve kendi veri portalında çevrimçi olarak kullanıcılarına sunmaktadır. Burada birçok farklı alanı kapsayan çok çeşitli veri setleri vardır. Her veri seti, bir veri sözlüğü ve verilerin kaynağı hakkında bazı bilgiler içeren bir README ile birlikte gelir. Bu, alıştırma yapmak için sıradan veri kümelerinden bazılarına erişmek için harika bir yerdir.

Örnek veri setleri:

Airline Safety: Havayolu şirketlerinden kaynaklanan kazalar hakkında bilgi veren veri setidir.

US Weather History: ABD’nin geçmiş hava durumu verilerini içeren veri setidir.

4. Quandl

Quandl, çeşitli kaynaklardan web siteleri / API’leri doğrudan entegrasyon yoluyla finansal, ekonomik ve alternatif veriler sağlar. Veri setleri açık veya premium olarak sınıflandırılabilir. Tüm açık veri setlerine ücretsiz erişebilmeniz mümkünken, premium veri setleri için ödeme yapmanız gereklidir. Ekonomik ve finansal veriler için açık kaynak oluşturan ekonomik göstergeleri yada hisse senedi fiyatlarını tahmin etmek için modeller oluşturmamıza olanak sağlamaktadır.

Örnek veri setleri:

Chinese macroeconomic data : Çin’in ekonomik sağlık göstergelerini içeren veri setidir.

US Federal Reserve data : Federal Reserve’den ABD’nin ekonomik göstergelerini içeren veri setidir.

5. Data.World

Data.world veri setlerini arayabileceğiniz, kopyalayabileceğiniz, analiz edebileceğiniz ve indirebileceğiniz kullanıcı odaklı veri depolama sitesidir. Bu sitenin avantajlarından biri bünyesinde birden fazla kaynaktan ve her amaç için (finans, suç. ekonomi, Twitter, NASA ve daha fazlası) çok çeşitli veri setleri bulundurmasıdır. Bununla birlikte kendi verilerinizi yükleyebilir, iş arkadaşlarınızla veya sadece diğer kullanıcılarla işbirliği yapabilir ve birbirinizle değerli bilgilerinizi paylaşabilirsiniz. Verilen keşfetmek ve birden çok veri kümesine katılmak için site arayüzünde SQL ve SPARQL sorgulan yazabilirsiniz. Ayrıca, R ve Python için seçtiğiniz araçta veri almayı ve bunlarla çalışmayı kolaylaştıran SDK (software development kit)’lara da sahiptirler. Tüm yapmanız gereken sadece bir hesap oluşturarak giriş yapmak ve daha sonra ihtiyacınız olan materyali aramaktır.

Örnek veri setleri :

Climate Change Data : World Bank’dan çok çeşitli iklim değişikliği verilerini barındıran veri setidir.

European Soccer Data : 2008–2016 yılları arasında 11 Avrupa ülkesinin futbol verilerini içeren veri setidir.

6. Data.gov

Data.gov, ABD’nin devlet kurumlarından kamuya açık tarım, kamu güvenliği, yerel yönetimler gibi 14 farklı konuda veri kaynaklarının depolandığı ayrıca veri odaklı gazetecilik ve hikaye anlatma(storytelling) için harika bir yerdir. Her ne kadar verilerin çoğu ek araştırmalar, lisans sözleşmelerini kabul etmeniz gerektirse de siteye kayıt olmadan veri setlerine doğrudan göz atabilirsiniz. Konu kategorisi, konum, etiketler, dosya biçimi, kurumlar ve daha fazlası gibi ekstra filtreler uygulayarak aramanızı daha etkili hale getirebilirsiniz.

Örnek veri setleri:

Food Environment Atlas: Yerel gıda seçimlerinin ABD’deki diyeti nasıl etkilediğine ilişkin veriler içeren veri setidir.

School System Finances: ABD’deki okul sistemlerinin finansmanı üzerine bir araştırma verisi içeren veri setidir.

7. Reddit

Reddit, Conde Nast Digital şirketine ait bir sosyal haber sitesi ve topluluk tartışma sitesi olarak bilinmektedir. Ancak veri setleri paylaşmaya ve tartışmaya adanmış bir bölümü de bulunmaktadır. Bu veri kümelerinin kapsamı ve kalitesi kullananlar tarafından gönderildiğinden dolayı birbirinden çok farklı olsa bile ilginç veri setlerine ulaşmak mümkündür. Subreddit’lere hesap oluşturmadan inceleyebilir, veri setlerini yorumlamak ve sitede veri seti yayınlamak için ücretsiz bir hesap oluşturmanız yeterli olacaktır.

Örnek veri setleri:

New York City Property Tax Data: New York City’deki emlak ve vergi değerleri hakkındaki bilgileri içeren veri setidir.

All Reddit Submissions: 2015 yılına kadar reddit gönderilerini içeren veri setidir.

8. Socrata

Socrata OpenData, tarayıcıda keşfedilebilen veya görselleştirmek için indirilebilen birden çok veri kümesi içeren bir portaldır. Sitenin sahip olduğu geniş veri kaynağı meraklı veri bilimciler için çekici bir kaynak haline getirmektedir. Ancak sitenin şöyle bir nüansı vardır ki, temiz ve güncel verileri bulmak için mevcut veri setlerini sıralamanız gerekmektedir. Bunu gerçekten dezavantaj olarak algılamamakta yarar var çünkü sitede verileri doğrudan tarayıcı formundayken inceleyebilir ve bazı görselleştirme araçlarını kullanabilirsiniz.

Örnek veri setleri:

White House staff salaries: 2010 yılı süresince her bir Beyaz Saray çalışanına ait ad, maaş, pozisyon vb. bilgilerini içeren veri setidir.

Music Sales Data: Yıllara göre satış verileri içeren veri setidir.

9. Academic Torrents

Academic Torrents,araştırmacıların veri paylaşması için oluşturulan bir platformdur. İki parçadan oluşur; kullanıcıların veri kümelerini arayabileceği bir site ve veri paylaşımını ölçeklenebilir ve hızlı hale getiren bir BitTorrent omurgası. Amacı, veri setlerinin araştırmacılar arasında paylaşılmasını kolaylaştırmak olan sitede;500’e yakın veri seti mevcuttur. Site,tüm UCI,Imagenet ve Wikipedia gibi popüler makine öğrenimi veri setleri de dahil olmak üzere 15 TB’nin üzerindeki verilere erişim sağlar.Herhangi bir kayıt işlemine gerek kalmadan verilere ulaşabilir, inceleyebilir ya da indirebilirsiniz.

Örnek veri setleri:

Student Learning Factors: Öğrencilerin öğrenmesini ölçen ve etkileyen bir dizi faktörü içeren veri setidir.

Enron Emails: İflas etmiş bir şirket olan ünlü Enron şirketindeki yöneticilerin e-posta’larını içeren veri setidir.

10.Open Data Europe

AB kurumlarının ve diğer kuruluşlarının yayınladığı ekonomi, istihdam, bilim, çevre ve eğitim gibi alanlardaki verilere bu platformlardan erişebilirsiniz. Open Data Europe, AB politika alanlarıyla ilgili hayati açık verilere ev sahipliği yapmakta olup yaklaşık 70 AB kurum, kuruluşlarının veri setlerini halka açık hale getirerek erişimine izin vermektedir. Bugüne kadar sayısı 11.700’e ulaşan veri setlerine kolayca ulaşabilir ve indirebilirsiniz.

Örnek veri setleri:

EU Trade Since 1988 by CN8: Avrupa Birliği ülkelerinin yılbaşı ağacı satış bilgilerini içeren veri setidir.

Antimicrobial Resistance Data: 1998'den beri Avrupa’da antibiyotik direncinin oluşumunu ve yayılmasını gösteren verileri içeren veri setidir.

--

--