[ML/DL] Gradient descent algoritm

Thermite

3 min readNov 4, 2018

[ML/DL] 시리즈는 홍콩과학기술대학교의 김성훈 교수님의 모두를 위한 딥러닝 강좌 시즌 1 영상을 보고 개인적으로 정리한 내용을 담고 있습니다.
이 글에서는 ML lec 03의 내용을 간략하게 담고 있습니다.

Cost function

Leaner regression의 목표는 비용(Cost)을 최소화하는 가설(Hypothesis)을 찾는 것입니다. 이를 위해서 가설을 간단하게 하고 비용함수를 정리하면 다음과 같습니다.

Gradient descent algorithm

앞서 간단하게 정리한 비용함수는 상단의 이미지와 같은 이차원 그래프의 모양으로 나타낼 수 있습니다. 이와 같은 그래프에서 최소값을 찾는 방법 중 하나가 바로 Gradient descent algorithm(경사 하강법)입니다. 이 알고리즘은 함수의 기울기가 작은 방향으로 이동하며 최소값을 찾는 알고리즘 입니다. 최소값은 기울기가 0인 지점이며 이 지점은 함수를 미분하여 찾을 수 있습니다. Gradient descent algorithm은 다음과 같은 수식으로 정리할 수 있습니다.

이 수식을 계산해보면, 기울기가 양수면 W값이 작은 방향으로 이동하고 기울기가 음수면 W값이 큰 방향으로 이동합니다. 여기서 a값은 learning rate 라고 하는 상수로 W값을 얼마만큼 이동할 지를 결정하는 역할을 합니다. (learning rate를 step size라고 부르기도 합니다.)

Convex function

convex function을 번역하면 모양이 아래로 볼록한 함수를 의미합니다. 만약 비용함수가 볼록함수가 아니라면 최초 설정한 W, b값에 따라서 Gradient descent algorithm의 결과가 다를 수도 있습니다. 따라서 비용함수를 설계할 때, 비용함수가 볼록함수가 되도록 설계해야합니다.

다음은 하나의 변수가 아닌 여러 개의 변수를 사용하는 Multivariable linear regression에 대해서 알아보도록 하겠습니다.

[ML/DL] Gradient descent algoritm

Cost function

Gradient descent algorithm

Convex function

Next

Written by Thermite