[MLY 번역] 4. Scale drives machine learning progress

3 min readAug 28, 2018

[MLY 번역]
Andrew ng의 Machine Learning Yearning을 번역한 글입니다. 중간중간 실험가능한 내용이 있을 경우 c++ 혹은 tensorflow를 이용한 실험과 함께 업로드할 예정입니다. 일주일에 2회, 회당 5개씩 업로드될 예정입니다.
번역: 안현진, 정주안

딥러닝(인공신경망)에 관한 많은 아이디어는 수십년간 계속되어 왔습니다. 왜 이제야 이런 아이디어들이 뜨는것일까요?

최근 이러한 진전을 이끈 가장 큰 두가지 요인은 다음과 같습니다 :

데이터 가용성(Data availability). 오늘날(현재) 사람들은 디지털 기기를 사용하는데 더 많은 시간을 소비합니다(노트북, 모바일 기기). 그들의 디지털 활동들은 우리의 학습 알고리즘에 사용할 수 있는 거대한 양의 데이터를 생성합니다.
정보처리 규모( Computational scale) 우리는 불과 몇년 전에서야 우리가 가진 거대한 데이터셋을 충분히 이용할 수 있는 인공신경망을 학습시킬 수 있게 되었습니다.

자세히 말하자면, 여러분이 더 많은 데이터를 모을지라도, 로지스틱 회귀와 같은 오래된 학습 알고리즘의 성능은 대부분 “plateaus”합니다. 이는 해당 알고리즘의 학습곡선의 기울기가 0에 가깝고, 여러분이 더 많은 데이터를 제공해도 성능이 더이상 개선되지 않음을 의미합니다.

마치 그 오래된 알고리즘들은 현재 주어진 데이터들을 가지고 무엇을 해야할 지 모르는 것처럼 보였습니다.

당신이 동일한 지도학습 과제를 작은 인공신경망으로 학습시켰을 때, 조금 더 나은 성능을 얻을 수도 있을 것입니다.

여기서 작은 인공신경망이란, 소수의 히든 유닛/ 레이어/매개변수만 가지고 있는 신경망을 의미합니다. 최종적으로, 여러분이 더욱 더 큰 인공신경망을 훈련시킨다면, 여러분은 더 나은 결과를 얻을 수 있습니다.

따라서 (i) 매우 거대한 인공신경망을 훈련시켰을 때, (ii) 매우 많은 양의 데이터를 가지고 있을때 여러분은 최고의 퍼포먼스를 얻을 수 있습니다.

이외에도 인공신경망의 구조와 같은 다른 세부사항들 또한 중요하고, 다양한 혁신이 이루어져 왔습니다. 그러나 오늘날 알고리즘의 성능을 개선하는 더 믿을만한 방법 중 하나는 여전히 (i) 더 큰 네트워크를 학습시키는 것과, (ii) 더 많은 데이터를 얻는 것입니다.

(i)과 (ii)를 이루기 위한 과정은 매우 복잡합니다. 이 책에서는 그러한 세부사항에 대해서 자세히 다룰 것입니다. 우리는 전통적인 학습 알고리즘과 인공신경망 모두에게 유용한 일반적인 전략부터 시작하여, 딥러닝 시스템을 구축하기 위한 가장 최신의 전략까지 알아볼 것입니다.

[MLY 번역] 4. Scale drives machine learning progress

Written by 정주안