İstatistik ve Makine Öğrenimi

Rümeysa Kara
Machine Learning Turkiye
3 min readOct 31, 2021

İstatistik nedir ?
İstatistik verileri işler ve özetler, araştırmacılara yol gösterir. Değişkenler arasındaki ilişkileri incelememize, tahminler ve öngörüler yapmamıza, doğru karar vermemize yarar.

İstatistikler ile ne yapılır ?
İstatistiklerle yapabileceğimiz üç ana şey var:

  • Tanımlama : Dünya karmaşıktır ve genellikle onu anlayabileceğimiz basitleştirilmiş bir şekilde tanımlamamız gerekir.
  • Karar verme : Genellikle belirsizlik karşısında, genellikle verilere dayalı kararlar vermemiz gerekir.
  • Tahmin : Genellikle, önceki durumlara ilişkin bilgimize dayanarak yeni durumlar hakkında tahminlerde bulunmak isteriz.

Betimsel İstatistik
İstatistik, geçmişi ve içinde bulunulan durumu tanımlayarak bir veri kümesine ilişkin özet değerler ve grafikler ortaya koyduğunda betimsel istatistik (descriptive statistics) adını alır.

Çıkarımsal İstatistik
Çıkarımsal İstatistik, küçük veri örnekleri üzerinde yapılan deneyleri incelemek ve tüm popülasyona yönelik çıkarımları tebeşirlemek için yöntemler sunar ve aynı zamanda araştırma sürecinin betimsel istatistiğin bıraktığı yerden devam ettirilmesi suretiyle, çalışmanın amacına uygun bir şekilde daha ileri tekniklerle (olasılık başta olmak üzere) karar verme ve kitleye dair çıkarsamalar yapma sürecidir.

İstatistik ve Makine Öğrenimi birbiriyle yakından ilişkili iki çalışma alanıdır. İstatistik, tahmine dayalı modelleri seçmemize, değerlendirmemize ve yorumlamamıza yardımcı olduğu için makine öğrenimi için önemli bir rol alır.

İstatistiğin Makine Öğrenimindeki rolü

Makine öğrenmesinin özü, istatistikler ile çevrelenmiştir. İstatistiksel temellere hakim değilseniz, gerçek dünyadaki sorunları makine öğrenimi ile çözemezsiniz.

Keşif amaçlı veri analizinden hipotez testi deneyleri tasarlamaya kadar, istatistikler, tüm ana endüstriler ve alanlardaki sorunların çözümünde ayrılmaz bir rol oynar.

Derin bir makine öğrenimi anlayışı geliştirmek isteyen herkes, istatistiksel yöntemlerin regresyon algoritmaları ve sınıflandırma algoritmalarının temelini nasıl oluşturduğunu, istatistiklerin verilerden nasıl öğrenmemize izin verdiğini ve etiketlenmemiş verilerden anlam çıkarmamıza nasıl yardımcı olduğunu öğrenmelidir.

Veriler ve modelleme

İzolasyonda, ham gözlemler sadece veridir. Bu gözlemleri anlamlı içgörülere dönüştürmek için tanımlayıcı istatistikler kullanılır .

Ardından, küçük veri örneklerini incelemek ve bulgularımızı tüm popülasyon için tahmin etmek için çıkarımsal istatistikler kullanılabilir.

Verinin incelenmesi
Verinin İncelenmesi, verilerdeki değişkenlerin dağılımları ve değişkenler arasındaki ilişkiler hakkında derinlemesine bir anlayış kazanmayı içerir.

Veri temizleme
Çoğu zaman, bir deneyden yada veri havuzlarından topladığınız veriler bozulmamış değildir. Veriler, bütünlüğüne zarar veren işlemlere veya manipülasyonlara maruz kalmış olabilir. Bu, veri ile yapacağınız süreçleri veya modelleri etkileyecektir.

Yaygın örnekler arasında eksik değerler, veri bozulması, veri hataları ve biçimlendirilmemiş veriler bulunur.

Veri hazırlama ve dönüştürme
Veriler hatalar ve tutarsızlıklar içeriyorsa, genellikle modelleme için doğrudan kullanamazsınız.

İlk olarak, yapısını değiştirmek ve tanımladığınız soruna veya kullandığınız öğrenme algoritmalarına daha uygun hale getirmek için verilerin bir dizi dönüşümden geçmesi gerekebilir.

Model Seçimi ve Değerlendirmesi
Tahmine dayalı bir problemi çözmede önemli bir adım, öğrenme yöntemini seçmek ve değerlendirmektir. Tahmin istatistikleri, görünmeyen veriler üzerinde model tahminlerini puanlamanıza yardımcı olur.

Modelde ince ayar
Hemen hemen her makine öğrenimi algoritmasında, seçtiğiniz problem çerçevesi için öğrenme yöntemini özelleştirmenize olanak tanıyan bir dizi hiper parametre bulunur.

Bu hiperparametre ayarı, analitik olmaktan ziyade doğası gereği genellikle ampiriktir. Farklı hiperparametre ayarlarının modelin performansı üzerindeki etkisini değerlendirmek için çok sayıda deney gerektirir.

--

--

Rümeysa Kara
Machine Learning Turkiye

Data Science and Deep Learning enthusiast. Computer Engineering Student.