STT -> ImageNet moment (орчуулга)

2B | +1% better 2day | ai.004

Published in

2B +1% better 2day

3 min readApr 9, 2020

Source : A Speech-To-Text Practitioner’s Criticisms of Industry and Academia

Дээрх нийтлэл нь миний хувьд нилээн сонирхолтой байсан болохоор, зах зухаас нь өөрийнхөөрөө орчуулан хүргэж байна. Editor-оор дамжаагүй болохоор алдаж бичсэн зүйлсийг маань засаж хэлээрэй.

TL;DR

Энэхүү нийтлэл нь дотроо

“ImageNet moment” гэж :
тухайн Машин сургалтын салбарт огцом ҮСРЭЛТ хийгдэх (boom?)
Яагаад өдийг болтол STT дээр энэ биелээгүй :
Зардал, цаг хугацаа их орж байгаа нь хамгийн том шалтгаан
Асуудал :
industry and academic 2 талын сөрөг нөлөөлөл их байна
Цаашид :
2–3 жилийн дотор ярианы технологи хаа сайгүй байх болно

гэсэн зүйлсийг агуулсан. (by Alexander Veysov, Data Scientist in Silero)

“ImageNet moment” гэж юу вэ?

Ямар нэг машин сургалтын салбарт “ImageNet moment” биеллээ олохын тулд дараах хүчин зүйлсийн хамаарал их чухал.

Энгийн хэрэглээний ажлуудын бараг бүгдийг (95%) нь хийж чадах архитектур, загварууд гарсан байх (standard & building blocks)
Тухайн архитектур болон загварууд нь тестлэгдсэн, нээлттэй эхийн байдлаар нийтэд хүртээмжтэй байх (widely available)
Бэлэн сургагдсан загварууд дээр багахан хэмжээний өгөгдөл ашиглан, сайжруулах боломжтой байх (fine tuning)
Сургах хугацаа нь харьцангуй хурдан байх (10–100 дахин бага)

Эдгээр зүйлс нь бүрдсэн байх үед хүмүүс/жижиг компаниуд боломжийн өртгөөр, хэрэгцээт аппликэйшн гаргах боломжтой болдог.

STT — ImageNet moment is coming in 2020?

“STT-ImageNet moment” хэзээ вэ?

So, by 2018 or so the ‘ImageNet Moment’ had fully happened for the vision community

Computer Vision (CV) дэх ImageNet moment ирэхэд нөлөөлсөн төхөөрөмжийн чадал (hardware) болон neural network architecture-н хувьд Speech-To-Text (STT) адилхан гэж үзэж болохоор байгаа.

Харин сургахад хэрэгтэй өгөгдөл (dataset), бэлэн загварууд (pre-trained model) болон мэдлэг шилжүүлэх сургалт (transfer learning) тал дээр STT хоцрогдолтой. (transfer learning-г юу гэдэг юм бээ Монголоор?)

Асуудал

Өнөөдөр гарч буй ихэнх судалгааны ажлууд Google, Baidu, Facebook гэх мэтчилэн томоохон компаниудаас л үүдэлтэй. Энэ нь өөрөө хэд хэдэн асуудлыг дагуулж байдаг.

Хувийн өгөгдөл дээр тулгуурласан
Хэцүү эсвэл үнэ төлбөртэй framework ашигласан
Бодит биш асуудлыг шийдсэн
Судалгааны ажлын үр дүн тодорхой бус

Одоогийн байдлаар нээлттэй эхийн хамгийн том төсөл нь Mozilla-н гаргасан Common Voice.

Sharing our Common Voices — Mozilla releases the largest to-date public domain transcribed voice dataset

Нөгөө талаас судлаачид үнэн зөв, цэгцтэй тайлбар, үр дүнг дахин бүтээх (reproducible) боломжтой код зэргийг багтаагаагүй дутуу дулимаг судалгааны ажил нийтэлж байгаа нь хөгжлийн явцыг хурдасгаж чадахгүй байна.

Бага хэмжээний өгөгдөл дээр МАШ САЙН ажилласан (overfit)

Adapted from here. Humans results were reported in the Deep Speech 2 paper.

Цаашид яах вэ

Хүмүүст хүртээмжтэй болгохын тулд :

Сайн тестлэгдсэн, нээлттэй эхийн загварууд
Бага өгөгдөл, бага өртөг, илүү хурдан бөгөөд САЙН үр дүн
Бодит амьдрал дээр хэрэглэгдэхүйц

байхаар судалгаа болон framework-үүд гарч ирэх хэрэгтэйг онцолсон.

ASR system comparison : real world examples

Eventually, pretty much everything will have ML somewhere inside and no-one will care — link

Удахгүй машин сургалт нь зүгээр л хаа сайгүй байдаг relational database-тай ижил болно. Гэхдээ түүний ачаар хөгжих “Ярианы технологи” нь өөрөө маш том потенциалтай салбар учир хаашаа явахыг нь БИД НАР өөрсдөө шийднэ. Харин үр ашгийг нь хэдхэн том компани хүртэх үү эсвэл бүх нийтээрээ хүртэх үү гэдэг асуулт бидэнд үлдэж байна. ❓

За нэг иймэрхүү л нийтлэл байлаа. Бас баахан харьцуулалт болон жишээ харуулсан хэсгийг нь орчуулсангүй. Сонирхвол өөрөө ороод үзээрэй 😁 Миний хувьд Speech Technologies удахгүй boom 💥 хийгээд бүх л зүйлсийг дуу хоолойгоороо удирддаг цаг тун ойрхон гэж хараад байгаа.