[MLY 번역] 9. 최적화 지표(optimizing metrics)와 만족 지표(satisficing metrics)

정주안
MLY_KOREA
Published in
3 min readAug 30, 2018

[MLY 번역]

Andrew ng의 Machine Learning Yearning을 번역한 글입니다. 중간중간 실험가능한 내용이 있을 경우 c++ 혹은 tensorflow를 이용한 실험과 함께 업로드할 예정입니다. 일주일에 2회, 회당 5개씩 업로드될 예정입니다.

번역: 안현진,정주안

여러개의 평가 지수들을 하나로 통합하는 다른 방식을 소개해보죠.

여러분이 정확도(accuracy)와 학습 알고리즘의 실행시간을 하나로 통합하려고 한다고 가정해봅시다. 그리고 다음 세개의 분류기중 하나를 선택해야 합니다.

이 두 평가 지수를 다음과 같이 통합해보죠.

정확도 — 0.5*실행시간

이런 방식은 영 부자연스러워 보이고 어색합니다.

그렇다면 다음과 같이 시도해보죠: 먼저, 어느정도가 허용가능한 실행시간인지를 정의해봅시다. 100ms 안에 실행가능하다면 전부 허용한다고 해보죠. 그 다음에는, 실행시간이 100ms 이내인 분류기에 대해서라면, 정확도만 비교해보죠. 이 방식에서 실행시간은 만족 지표(satisficing metric)라고 불립니다. — 최대 100ms 까지의 실행시간을 가지는 분류기에 대해서는 적당히 괜찮다 라고 보는 것이죠. 정확도는 최적화 지표(optimizing metric)라고 불립니다.

여러분이 N개의 기준들을 다룰 때, 예를 들어 분류기의 모델 바이너리 파일의 크기(모바일 어플리케이션에는 중요한 요소겠지요), 실행시간, 정확도등이 있을 때, 여러분은 N-1개의 기준을 만족 지표로서 고려할 수 있습니다. 즉, 특정 값만 만족한다면 괜찮다는 것이죠. 그 다음엔 남은 한 가지를 최적화 지표로 정의하는 겁니다. 예를 들어, 바이너리 파일의 크기랑 실행시간은 어떤 임계값(threshold)을 정해주고, 이 기준을 통과한 것들에 대해서는 정확도에 대해 최적화하는 것이죠.

마지막 예제로써, 사용자가 어떤 ‘트리거 단어’(wakeword)가 되는 말을 했을 때 마이크를 통해 그것을 듣고 시스템이 실행되는 하드웨어 기기를 만든다고 가정해봅시다. 아마존 에코에는 ‘알렉사’(Alexa), 애플의 시리에는 ‘헤이 시리’(Siri), 안드로이드에는 ‘오케이 구글’, 바이두 어플리케이션에는 ‘헬로 바이두’ 와 같이 말이지요. 여러분은 거짓 음성(false negative) 비율(어떤 사람이 트리거 단어를 말했는데도 시스템이 작동하지 않는 빈도)과 더불어, 거짓 양성(false positive) 비율(아무런 말도 안했는데 시스템이 작동되는 빈도)도 고려해야 합니다. 이 시스템의 퍼포먼스에 대한 그럴듯한 목표로서, 거짓 음성 비율을 최소화하고 (최적화 지표로써), 24시간안에 한개의 거짓 양성 반응이 없는 것(만족 지표)을 골라내는 것이 있을 수 있죠.

일단 여러분의 팀이 최적화할 평가 지수를 정하고 나면, 그들은 더 빠르게 작업을 진행할 수 있을겁니다.

--

--