Dereceli Azalma : Basitçe Mi Açıklandı ?

2D Maaliyet Fonksiyonun İki Bağımsız Değişkenle Çizilmiş Görünümü

Sıklıkla şu iki soruyu sorarım ,“ Dereceli azalmayı açıklayabilir misin ?” ve “Dereceli azalma makine öğrenmesinde nasıl bir rol oynar?” .

Verdiğim eğitim boyunca , dereceli azalmanın ne olduğunu ve Makine

Öğrenimi söz konusu olduğunda neden “temel bileşen” olduğunu bu blogta paylaşacağımı düşündüm.

Şimdi buraya çok önemli bir varsayım bırakıyorum ve bu : okuyucu Calculus’u ,özellikle 2’ye kadar olan farklılaşmayı anlayacak .

Maliyet Fonksiyonu

Makine öğrenimini bilenler ya da öğrenenler için , her bir makine öğrenim modelinin bir maliyet fonksiyonuna sahip olduğunu biliyorsunuz .Kısaca açıklamak gerekirse , diğer parametrelerin değerlerinden farklı performans gösteren en iyi makine öğrenmesi modelinin nasıl olduğunu belirlemek için bir yoldur .

Örneğin , lineer regresyon modeli , parametreler iki katsayı olacaktır ,Beta 1 ve Beta 2.

Lineer Regresyon Modeli

Maliyet fonksiyonu en küçük kareler yönteminin toplamı olacaktır . Foknsiyon parametreleri Beta 1 ve Beta 2 olduğundan betanın her bir değeri ile maliyet fonksiyonu çizebiliyoruz .(Her bir katsayının değeri ele alındığında , makine öğrenme modelinin nasıl iyi performans gösterdiğini bilmek için maliyet fonksiyonuna başvurabiliriz.)

Verilen bu parametrelerle , kesin maliyet fonksiyonunu kafanızda canlandırabilirsiniz , çok boyutlu bir düzlemin eş yükselti eğrileri ortaya koyulur ( 3 boyutta dağlık bir alana benzer ).

NOT: Burada bir sürü karmaşıklık var .Basitçe, yatay eksen ile karıştıran pek çok insan gördüm . Yatay eksenin aslında Xs olduğunu veya X’lerin eğitim aşaması boyunca aynı kalacağı için doğru olmayan bağımsız değişkenler olduğunu düşünmüşlerdir. Eğitim aşamaları boyunca daima hatırlayın ,parametreler için en iyi değeri (yani katsayıları ) seçmeye odaklanıyoruz .

Modeli eğitirken , bize en düşük maliyeti verecek katsayı değerlerini ( betalar , doğrusal regresyon örnekleri için ) bulmaya çalışıyoruz . Baka bir deyişle , doğrusal regresyon örnekleri için — dağlık alandaki en düşük nokta gibi- maliyeti en aza indirgeyecek katsayı değerlerini arıyoruz .

Dereceli Azalma

Şimdi modelin eğitim aşamasına bakalım .

Öyleyse şimdi bu çık boyutlu düzleme bir ajan yerleştirdiğimizi hayal edelim (dağlık alanı hatırlayın ), başlangıç pozisyonu rastgele verildi (yani her katsayı için rastgele değer atandı ). Bu rastgele atanan başlangıç pozisyonu makine öğrenmesi dünyasında “Initialization /İlklendirme “ olarak bilinir ve tamamen bir araştırma alanıdır .

Bu ajan yalnızca bir şeyi görebilir ve bu yerdeki eğimlerin noktasıdır ,yani katsayılarda birim maliyet değişim oranı . Bu eğimin görüsü Calculus’teki birinci derece türevden gelir. Bu dereceli azalmadaki “dereceli”yi açıklar .

Eğer dereceli azalma temelli bir materyalle eğitim aldıysanız , Öğrenme Oranı olarak bilinen başka bir teknik terimle karşılaşacaksınız . Öğrenme oranı aslında ajan dağlık alanda seyahat ederken adımının ne kadar büyük olduğunu ifade eder , anlamı aldığımız parametreler ne büyüklükte değişir .Yani eğer ayakta durma noktasında eğim dikse ve büyük adım atıyorsanız maliyette büyük azalma göreceksiniz .

Alternatif olarak eğim küçükse ( eğim sıfıra yakınsa ) ,sonra adımlar büyük olsa da verilen eğim küçük tür, maliyetteki değişim de küçük olacaktır .

Hepsini Bir Araya Getir

Bu dereceli azalmada , ajan bulunduğu her noktada , adımın genişliğini ve eğimi (her bir parametre için) bilir. Atılan adım ve eğimle beraber hesaba katılan her parametrenin geçerli değeri güncel olacaktır . Parametrelerin yeni değerleri ile beraber eğim tekrar hesaplanır ve adımla beraber ,parametrelerin yeni değerleri hesaplanır . Bu tekrarlama biz yakınlaşana kadar sürer (bir süre tartışacağız ) . Tekrarlanan pek çok adımla , ajan dağlık alandaki en aşağı noktaya yavaşça iner .

Şimdi neden ajan en aşağı noktaya gitti ,yükseğe değil diye sorabilirsiniz . Bunu araştırmak için okuyuculara bırakacağım ama araştırma için biraz yol göstereyim. Maliyet fonksiyonlarının yakınsak / conveks fonksiyon olması ve parametre değerlerinin nasıl güncellendiği ile alakalı bir şey var .

Yakınsama

Öncelikle ajan , pek çok adımdan sonra , maliyetin çok gelişmediğini fark etder ve yakında belirli bir noktada çakılıp kalırsa ( min ) , bu teknik olarak yakınsama olarak bilinir . Parametre değerleri , parametre dizilerinin en iyisi olarak bilinen en son adımdadır (lineer regresyon modeli örneğindeki gibi iki beta için de en iyi değerlere sahibiz ) . Ve bir öğrenme modeline sahibiz .

Sonuçta , dereceli azalma parametreler için en iyi değer setini hesaplamak için kullandığımız bir yoldur .

Adımlar aşağıdaki gibidir :

1-Eğim verildiğinde , atılan adımın boyutuna göre parametredeki değişikliği hesaplayın .

2-Yeni parametre değeri ile yeni eğimi hesaplayın .

3-İlk adıma geri dönün .

Ve bu adımların serisi biz yakınsak noktaya gelince duracak . Umarım bu dereceli azalmayı anlamanıza yardımcı olmuştur .

Teşekkürler .

Kaynak : https://towardsdatascience.com/gradient-descent-simply-explained-1d2baa65c757

Thanks to Koo Ping Shung.