Derin Öğrenme Modellerinin Eğitiminde Kullanılan 5 Önemli Veri Seti

Muslum Yildiz
Academy Team
Published in
9 min readApr 28, 2023

Derin öğrenme, yapay zeka alanında son yıllarda büyük bir ivme kazanmıştır ve birçok uygulama alanında çığır açan sonuçlar elde etmiştir. Ancak, bu modellerin doğru bir şekilde eğitilmesi için uygun veri setlerine ihtiyaç duyulmaktadır. Bu nedenle, derin öğrenme modellerinin eğitiminde kullanılan önemli veri setleri incelenmeli ve bu veri setlerinin özellikleri dikkate alınarak modellerin eğitiminde kullanılmalıdır. Bu veri setleri, görüntü tanıma, doğal dil işleme ve diğer alanlarda derin öğrenme modellerinin eğitiminde sıklıkla kullanılan ve başarılı sonuçlar veren veri setleridir. Bu makalede, derin öğrenme modellerinin eğitiminde özellikle CNN (Convolutional Neural Network) ve Computer Vision (Bilgisayarlı Görü) alanlarında yaygın olarak kullanılan 5 önemli veri seti ele alınacaktır.

Derin öğrenme, makine öğrenmesinin bir alt kategorisi olarak kabul edilir. Makine öğrenmesi, bilgisayar sistemlerinin veri örneklerinden öğrenerek ve bu öğrenme sonucunda yeni veriler üzerinde tahmin yapabilen matematiksel modeller oluşturmasını içeren bir disiplindir. Derin öğrenme ise, yapay sinir ağları gibi öğrenme tekniklerini kullanarak bu matematiksel modelleri daha da geliştirir. Derin öğrenme algoritmaları, verileri öğrenerek ve bu verileri kullanarak gelecekteki tahminler yapabilen karmaşık matematiksel modeller oluştururlar. Bu modeller, ses, görüntü, doğal dil ve diğer türlerdeki verileri işleyebilir ve geniş bir uygulama yelpazesine sahiptirler.

Dolayısıyla, derin öğrenme, makine öğrenmesinin bir parçasıdır ve büyük veri kümelerinde daha yüksek performans gösteren bir öğrenme yöntemidir.

Computer Vision, insan gözünün çalışmasını taklit ederek dijital görüntüleri analiz etmeyi amaçlayan bir bilgisayar bilimi dalıdır. Görüntülerden bilgi çıkarabilen sistemler, nesne tanıma, yüz tanıma, görüntü sınıflandırma ve hatta otonom araçlar gibi birçok alanda kullanılabilir. Computer Vision alanı, bilgisayar sistemlerinin görüntülerden anlamlı bilgi çıkarması ve bu bilgiyi kullanarak görsel görevleri yerine getirmesiyle ilgilenir.

CNN ise derin öğrenme modeli olarak bilinir ve genellikle Computer Vision alanındaki görevler için kullanılır.

CNN, görüntülerin özelliklerini öğrenmek için özelleştirilmiş katmanlardan oluşan bir ağdır, özellikle görüntü sınıflandırması için oldukça popüler bir derin öğrenme modelidir. CNN, görüntüleri katmanlar halinde işleyerek, belirli özellikleri çıkararak sınıflandırma yapar. Bu özellikler, görüntülerin daha yüksek seviyeli özelliklere dönüştürülmesinde kullanılır ve nihayetinde sınıflandırma, nesne tespiti, segmentasyon ve diğer Computer Vision görevleri gibi birçok görevde kullanılır. CNN, computer vision alanında temel bir derin öğrenme yöntemi olarak kabul edilir ve görüntü işlemeyle ilgili birçok algoritmanın temelini oluşturur.

Bu nedenle, computer vision ve CNN, birbirleriyle yakından bağlantılı ve birbirine bağımlıdır. CNN, computer vision alanında en yaygın kullanılan algoritmalardan biridir ancak Computer Vision alanında sadece CNN kullanılmaz, farklı yaklaşımlar ve algoritmalar da kullanılabilir.

CIFAR-10, CIFAR-100, ImageNet, COCO, PASCAL VOC ve MNIST gibi veri setleri, CNN modellerinin eğitiminde yaygın olarak kullanılan veri setleri arasındadır. Bu veri setleri, daha iyi özellik öğrenimi ve daha doğru sınıflandırma sonuçları elde etmek için CNN modellerinin eğitilmesine yardımcı olur ve bu sayede Computer Vision alanındaki uygulamalarda kullanılan modellerin doğruluğu artar. Şimdi bu veri setleri hakkında biraz detaylı bilgileri sizlerle paylaşmak istiyorum.

CIFAR (Canadian Institute for Advanced Research)-10 ve CIFAR-100 :

CIFAR-10 ve CIFAR-100, bilgisayar görüşü alanındaki sınıflandırma problemleri için kullanılan yaygın veri setleridir. Bu veri setleri, 32x32 boyutunda renkli görüntülerden oluşur ve nesne tanıma görevleri için kullanılır. CIFAR-10'da 10 sınıf vardır ve her sınıf 6000 görüntü içerirken, CIFAR-100'de 100 sınıf vardır ve her sınıf 600 görüntü içerir. Bu veri setleri, küçük boyutlarına rağmen, nesne tanıma ve sınıflandırma görevleri için oldukça zorlayıcıdır. Bu veri setleri, özellikle yeni başlayanlar için mükemmel bir giriş seviyesi sağlar ve derin öğrenme modeli eğitimi için birçok öğrenme kaynağı mevcuttur. Bu veri setleri, daha fazla sınıf ve daha yüksek çözünürlükteki görüntülerle birlikte gelir, böylece CNN’lerin daha da geliştirilmesi ve iyileştirilmesi için kullanılabilirler.

CIFAR-10 veri seti, 10 farklı sınıfa ait toplam 60,000 renkli görüntüden oluşur. Her sınıf 6,000 görüntüye sahiptir. Görüntüler 32x32 boyutlarındadır ve RGB renk uzayında 3 kanala sahiptir. Sınıflar arasında uçak, otomobil, kuş, kedi, geyik, köpek, kurbağa, at, gemi ve kamyon bulunmaktadır.

CIFAR-100 veri seti, 100 farklı sınıfa ait toplam 60,000 renkli görüntüden oluşur. Her sınıf 600 görüntüye sahiptir. Görüntüler 32x32 boyutlarındadır ve RGB renk uzayında 3 kanala sahiptir. Sınıflar arasında çiçekler, kuşlar, meyveler, araçlar, ev eşyaları, elektronik cihazlar ve hayvanlar gibi birçok farklı kategori bulunmaktadır.

Her iki veri seti de, özellikle derin öğrenme algoritmaları için sınıflandırma performansının değerlendirilmesinde sıkça kullanılır. Bu veri setleri üzerinde yapılan çalışmalar, özellikle sinir ağı modellerinin görüntü sınıflandırma görevlerinde ne kadar etkili olduğunu göstermek için kullanılır.

Data setine aşağıdaki linkten ulaşabilirsiniz.

ImageNet :

CNN’lerin geliştirilmesinde büyük bir rol oynayan bir veri setidir. ImageNet, özellikle derin öğrenme için büyük ve çeşitli bir veri seti olması nedeniyle, CNN’lerin eğitimi için sıklıkla kullanılır. Bu, 14 milyondan fazla etiketli görüntü içeren büyük bir veri setidir. ImageNet, görüntülerin nesnelerinin tanınması için kullanılan birçok derin öğrenme modelinin eğitiminde kullanılmıştır. Bu veri seti, özellikle nesne tanıma ve sınıflandırma görevleri için oldukça zorlayıcıdır ve daha büyük ve karmaşık veri setleri için bir temel oluşturur.

ImageNet, görüntülerin farklı nesnelerini içeren 1000 sınıf içerir ve her sınıf için en az 1000 görüntü içerir. Bu, CNN’lerin daha karmaşık nesneleri tanımalarına ve sınıflandırmalarına olanak tanır.

ImageNet, Princeton Üniversitesi’nde geliştirilen bir görüntü veri setidir. Veri setinin ilk sürümü, 2009 yılında Jia Deng, Samy Bengio, Alex Berg ve Fei-Fei Li tarafından oluşturuldu. ImageNet, başlangıçta, 22.000'den fazla kategori içeren 14 milyondan fazla görüntü içeriyordu.

ImageNet veri seti, makine öğrenimi ve derin öğrenme algoritmaları geliştirmek için önemli bir kaynak haline geldi. 2010 yılında, ImageNet Large Scale Visual Recognition Challenge (ILSVRC) yarışması başlatıldı. Yarışmacılar, belirli bir sınıf altında olan nesneleri tanımak ve sınıflandırmak için makine öğrenimi modelleri geliştirmeye çalıştılar.

ILSVRC, derin öğrenme için dönüm noktası olan Convolutional Neural Networks (CNN) ile kazandığı popülerlikle ünlü hale geldi. 2012 yılında, Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton, ImageNet yarışmasında CNN tabanlı bir model olan AlexNet’i sunarak yarışmayı kazandılar ve ImageNet’in kullanımının artmasına neden oldular.

Bugün, ImageNet hala görüntü işleme ve makine öğrenimi topluluğunda önemli bir kaynak olarak kullanılmaktadır ve derin öğrenme algoritmalarının geliştirilmesi ve test edilmesinde vazgeçilmez bir veri setidir.

Data setine aşağıdaki linkten ulaşabilirsiniz.

COCO (Common Objects in Context) :

COCO veri seti, görüntü segmentasyonu, nesne tespiti, anahtar nokta tespiti ve nesne tanıma gibi computer vision görevleri için kullanılan bir veri setidir. Microsoft tarafından geliştirilmiştir ve 330K görüntüden oluşur. Her görüntü, birden fazla nesneyi içerir ve her nesne için ayrıntılı etiketlemeler (label) sağlanır. Örneğin, nesne tespiti için her görüntüdeki tüm nesneler etiketlenir ve her nesne için çevresel kutular (bounding box) belirlenir.

COCO veri seti, ImageNet’ten farklı olarak, nesnelerin birden fazla özellikle (konum, boyut, şekil, çevresel kutu, etiket vs.) etiketlenmesine olanak tanır. Bu nedenle, daha karmaşık computer vision görevleri için ideal bir veri setidir.

COCO veri seti, ImageNet’ten daha zorlu bir veri seti olarak kabul edilir. Çünkü ImageNet sadece tek bir nesne sınıfı için etiketli veri sağlar ve her görüntüde yalnızca bir nesne vardır. COCO veri setinde ise her görüntü birden fazla nesne içerir ve her nesne için ayrıntılı etiketlemeler sağlanır.

COCO veri seti, nesne tespiti ve segmentasyonunda son derece başarılı sonuçlar veren birçok state-of-the-art yöntemin eğitiminde kullanılmıştır. Ayrıca, COCO veri seti, ImageNet’ten farklı olarak, daha geniş bir nesne sınıfı yelpazesini kapsar ve bu sayede daha geniş kapsamlı bir computer vision uygulama yelpazesine olanak tanır.

COCO veri seti, aynı zamanda yarışmalar ve benchmark testleri için de sıklıkla kullanılır. Bu yarışmalar, computer vision alanındaki en iyi performans gösteren yöntemleri belirlemek için düzenlenir. COCO veri seti, nesne tespiti ve segmentasyonunda en yaygın olarak kullanılan veri setlerinden biridir ve computer vision alanındaki araştırmalar için önemli bir kaynak sağlar.

Bu veri seti, nesne tanıma, nesne tespiti ve görüntü segmentasyonu için kullanılır. 330.000'den fazla görüntü içerir ve her biri en az 80 nesne etiketi içerir. Bu veri seti, derin öğrenme modeli eğitiminde oldukça önemlidir ve özellikle çoklu nesne tanıma ve segmentasyonu gibi görevler için oldukça zorlayıcıdır.

Data setine aşağıdaki linkten ulaşabilirsiniz.

PASCAL VOC (Visual Object Classes):

Bu, nesne tanıma, nesne tespiti ve görüntü segmentasyonu için kullanılan bir başka veri setidir. PASCAL VOC, 2005'ten 2012'ye kadar yıllık olarak düzenlenen bir yarışmanın parçası olarak oluşturulmuştur ve yaklaşık 20.000 görüntü içermektedir. PASCAL VOC ve COCO veri setleri, nesne tanıma, tespit ve görüntü segmentasyonu gibi daha karmaşık görevler için kullanılırken, CIFAR-10, CIFAR-100 ve MNIST gibi veri setleri daha temel görüntü sınıflandırma problemleri için kullanılır.

PASCAL VOC bir bilgisayar görüşü ve nesne tanıma alanındaki bir veri setidir. Bu veri seti, özellikle nesne tanıma, nesne tespiti ve görüntü sınıflandırma gibi görevler için kullanılır. İlk kez 2005 yılında yayınlanmıştır ve o zamandan beri her yıl güncellenerek kullanılmaktadır.

Semantic segmentation using Pascal VOC

PASCAL VOC veri seti, 20 farklı nesne sınıfını içeren 11.530 görüntüden oluşur. Bu sınıflar arasında insanlar, arabalar, uçaklar, kuşlar, kediler, sandalyeler, yemekler, köpekler, atlar, bisikletler, tekneler, çiçekler, otobüsler, motosikletler, kişisel bilgisayarlar, bitkiler, koyunlar, koltuklar, trenler ve televizyonlar yer alır.

Her görüntü, nesnelerin konumunu ve boyutunu belirten bir XML dosyasıyla birlikte verilir. Bu XML dosyaları, her nesne için ayrı ayrı etiketlenmiş bölümleri içerir. Ayrıca her görüntü, görüntünün orijinal boyutunu, yüksekliğini ve genişliğini de içeren bir meta veri dosyası ile birlikte gelir.

PASCAL VOC veri seti, nesne tanıma ve benzeri görevler için test edilmiş ve birçok algoritma tarafından kullanılmıştır. Ayrıca, nesne tanıma performansını değerlendirmek için kullanılan standart bir ölçüt olan Average Precision (AP) gibi değerlendirme ölçütleri de PASCAL VOC veri setinde kullanılmaktadır.

Data setine aşağıdaki linkten ulaşabilirsiniz.

http://host.robots.ox.ac.uk/pascal/VOC/

MNIST (Modified National Institute of Standards and Technology):

MNIST, özellikle derin öğrenmenin öncüllerinden olan evrişimli sinir ağları (CNN) için popüler bir veri setidir. CNN’ler, nesne tanıma ve sınıflandırma gibi görevlerde yüksek doğruluk sağlamak için tasarlanmıştır. Bu veri seti, el yazısı rakamlarının tanınması için kullanılır.

MNIST veri seti, 1998 yılında kullanılmıştır. Yann LeCun, Corinna Cortes ve Christopher J.C. Burges tarafından oluşturulan bu veri seti, derin öğrenme algoritmalarını test etmek ve geliştirmek amacıyla kullanılmıştır. Bu veri kümesi, bilgisayarlı görü ve özellikle el yazısı rakam tanıma algoritmalarının geliştirilmesi için önemli bir kaynak olarak kabul edilir.

https://www.youtube.com/watch?v=FwFduRA_L6Q

60.000 eğitim örneği ve 10.000 test örneği içerir. MNIST, el yazısı rakamlarının tanınması için kullanılan basit bir veri seti olsa da, CNN’lerin temel prensiplerini anlamak için oldukça yararlıdır.

MNIST bir el yazısı rakam tanıma veri kümesidir. Veri kümesi, 60.000 eğitim örneği ve 10.000 test örneği içerir. Bu örnekler, 0 ile 9 arasındaki rakamları içerir ve gri tonlamalı 28x28 piksel resimlerdir.

MNIST veri kümesi, makine öğrenimi ve yapay zeka algoritmalarını test etmek ve eğitmek için sıklıkla kullanılmaktadır. Özellikle, el yazısı tanıma modelleri için sıklıkla kullanılan bir veri kümesidir. Bu veri kümesi, basit olmasına rağmen, sınıflandırma algoritmalarının performansını karşılaştırmak ve iyileştirmek için iyi bir temel sağlar.

MNIST veri kümesi, Amerika Birleşik Devletleri Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından toplanan orijinal veri kümesinin modifiye edilmiş bir versiyonudur. Veri kümesi, birçok farklı kaynaktan toplanmış, çok çeşitli yazı stillerini içerir.

MNIST veri kümesi, bilgisayar görüşü ve makine öğrenimi topluluğunda çok popüler olmuştur ve birçok farklı proje ve uygulama için kullanılmıştır. Ayrıca, derin öğrenme için de bir benchmark olarak sıklıkla kullanılmaktadır.

Data setine aşağıdaki linkten ulaşabilirsiniz.

Bu beş veri seti, derin öğrenme alanlarında kullanılan en popüler ve yaygın görüntü veri setlerinden bazılarıdır. Bu veri setlerinin ortak özelliği, bilgisayarlı görü alanında kullanılmalarıdır. Her biri, farklı görevlerde kullanılabilen, önceden etiketlenmiş görüntüler içerir.

Sonuç olarak, bu veri setleri, derin öğrenme ve computer vision alanları için büyük önem taşımaktadır. CIFAR-10, CIFAR-100, MNIST, COCO, ImageNet ve PASCAL VOC gibi veri setleri, derin öğrenme algoritmalarının geliştirilmesi, test edilmesi ve eğitilmesi için kritik öneme sahiptir. Bu veri setleri, nesne tanıma, tespit ve sınıflandırma gibi birçok farklı görevde kullanılabilirler ve gelecekteki araştırmalar için önemli bir referans kaynağıdırlar. Computer vision alanındaki araştırmacılar ve mühendisler, bu veri setlerinin sunduğu fırsatları kullanarak daha gelişmiş öğrenme algoritmaları ve teknikleri geliştirebilirler.

--

--