Машин сургалт, өгөгдлийн шинжлэх ухааны талаар анхлан сурагчдын гаргадаг нийтлэг 5 алдаа + Хэрхэн зайлсхийх вэ?

Indra A
Beyond Data Science
3 min readSep 1, 2019

--

Өгөгдлийн шинжилгээ, машин сургалтын талаар сонирхох болсон залуусын тоо өдөр ирэх тусам Монгол төдийгүй Дэлхий даяар нэмэгдэж байна. Энэ нь маш бахархууштай хэрэг хэдий ч хаанаас эхлэх вэ, юунд анхаарах вэ, зэрэг олон асуултууд тулгарна. Анхнаасаа хамаг цагаа дэмий юманд зарцуулах, буруу зүйлдээ анхаарлаа хандуулах зэрэг алдаануудаас сэргийлэх зорилгоор дата аналист, машин сургалтын инженерүүд өөрсдийн туршлага дээр тулгуурлан зайлсхийх шаардлагатай нийтлэг алдаануудын талаар хүргэж байна. /Эдгээрийн дийлэнхийг нь би өөрөө олон удаа гаргаж байсан байдаг шүү/

1.Хэрэглээ бус онолын ойлголтуудад хэтэрхий их ач холбогдол өгөх

Ямар ч зүйлийг сурахад онолын ойлголтуудаас эхлэх нь зүй ёсны хэрэг. Машин сургалтын талаар онолын мэдлэг олгох ном, сурах бичиг, видео бичлэг, курс, онлайн сургалт, подкаст зэрэг олон материалууд байдаг. Мэдээж онолоо мэдэх нь бүх зүйлсийн суурь болж өгдөг ч үүнийгээ практиктайгаа хослуулахгүй бол хоосон мэдлэг болно. Миний хувьд яг энэ алдааг гаргаж ажилд орохоосоо өмнө бүх алгоритмуудын тухай ойлголтуудыг авсан боловч хангалттай их практик асуудлууд дээр ажиллаагүй байснаа ажлын байранд гараад ойлгож авсан байдаг юм.

Хэрхэн зайлсхийх вэ? Хариулт нь маш энгийн: Бодит кейсүүд дээр ажилла. Бодит өгөгдөл дээр ажиллах үед маш олон асуудлууд гарч ирдэг. Тэдгээрийг шийдвэрлэх, асуудалд шийдэл олох “аялал” асар сонирхолтой, мөн олон зүйл сурч авдаг шүү.

2. Онолын огт ойлголтгүй модель боловсруулах гэж оролдох

Нөгөө талаас шууд өгөгдөл оруулаад загвар боловсруулах гэж оролддог хэсэг нөхөд бий. Би мөн л тэдний нэг явлаа. Машин сургалтын арга аргачлалууд өдөр ирэх тусам л илүү амар болж олон төрлийн ажил хөнгөвчилсөн “номын сангууд” /libraries/ бий болж байгаа энэ үед гол суурь статистик, шугаман алгебрын мэдлэггүй хүн ч загвар боловсруулах боломжтой болжээ. Энэ нь хэдийгээр цаг хэмнэх сайн хэрэг боловч нөгөө талдаа ямар суурь ойлголтгүй загвар боловсруулж үүнээсээ дүгнэлт гаргах нь маш осолтой, үр дагавар ихтэйг анхаарах нь зүйтэй.

Хэрхэн зайлсхийх вэ? Хариулт нь мөн л энгийн Шугаман алгебр, Статистик зэрэг ойлголтуудын мэдэж авах нь наад захын хэрэг. Онол, практикийн зөв оновчтой балансыг олж чадвал зорилгодоо хүрэхэд нэг алхам ойртлоо л гэсэн үг.

3. Хэтэрхий хол “харайх”

Машин сургалт, ЭйАй ака Хиймэл оюун ухаан сонирхож буй масс ихэвчлэн өөрөө явдаг автомашин, робот зэрэг ахисан түвшний жишээнүүдээс үүдэн уг чиглэлд татагдсан, сонирхсон байдаг. Тийм ч учраас машин сургалтын асар энгийн ойлголтуудыг мэдэхгүй ч шууд Neural Network, LSTM, NLP зэрэг ойлголтуудруу үсрээд эхэлдэг. Гэтэл “фундаментгүй байшин” лугаа бүтэлгүйтэж дээр нь цаг хугацаа алдах тохиолдол бишгүй гарч байсан.

Хэрхэн зайлсхийх вэ? Мэдээж суурь буюу энгийн загвар болон ойлголтуудаас эхлэх нь хамгийн зөв бөгөөд урт хугацаандаа асар үр өгөөжтэй байдаг гэдгийг өөрийн гашуун туршлага дээрээ суралцсан байдаг юм.

4. Үйл явц бус үр дүнд хэт анхаарах

Өгөгдөл бэлдээд загвартаа оруулаад үр дүнгээ авчихлаа. 97%-ийн ассuracy-тай маш сайн таамагладаг загвар боловсруулсан байна. Гэтэл загвар маань хэрхэн яаж ийм үр дүн гаргаад байгаагаа ойлгохгүй бол accuracy нь 100% байсан ч хэн ч ойлгохгүй, тоохгүй. Ямар feature-ууд хэрхэн яаж сонгосон, ажилласан, аль нь илүү ач холбогдолтой байсан, загвар боловсруулахдаа юунд анхаарч, юуг зорьсон гэх мэт зүйлсийг мэддэг, мөн бусдад тайлбарладаг байх нь маш чухал.

Хэрхэн зайлсхийх вэ? Энэ чиглэлээр олон жил ажилласан, туршлагатай мэргэжилтнүүдээс зөвлөгөө авах нь маш үр дүнтэй бөгөөд өгөөжтэй. Мөн маш энгийн загвар боловсруулаад огт энэ талаас мэддэггүй хүнд тайлбарлаж үзэх нь үр дүнтэй байдаг шүү.

5. Бизнесийн асуудлаас илүү ашиглах арга техникт анхаарах

Эрдэмтэн судлаачид байнга шинэ арга аргачлал, хуучин аргуудаа сайжруулах зэрэг инновациудыг хийж байдаг. Тэр ч утгаараа асар олон шинэлэг арга аргачлалууд бэлэн байдаг нь бизнесийн шаардлагаас илүү арга аргачлалдаа анхаарахад хүргэдэг. Миний бие мөн л энэхүү алдааг гаргаж байсан удаатай. Шинэ алгоритм туршиж үзэх хүсэлдээ автан түүнд таарах бизнес асуудлын эрэлд гарсан байдаг юм. Уул шугамандаа эхлээд асуудлаа тодорхойлоод, зорилгоо тодорхойлоод, өгөгдлөө гаргаж аваад дараа нь загвараа тодорхойлох ёстой юм.

Хэрхэн зайлсхийх вэ? Бодит өгөгдөл ашиглан бодит асуудал дээр шинжилгээ хийх нь хамгийн зөв алхам бөгөөд ямар бизнесийн салбарт ямар асуудлууд гардаг хэрхэн шийдвэрлэдэг талаар уншиж судлах нь зүйтэй.

За ингээд дата аналист, судлаач, машин сургалтын мэргэжилтэн болох “аялал”-д тань амжилт хүсье.

--

--