Signate (Дата аналист болон Machine Learning сонирхогчдод зориулагдсан онлайн тэмцээн)-д ороод сурсан зүйлс

bilgee bayaraa
Mar 17 · 6 min read
https://signate.jp/

Эхлээд яагаад онлайн тэмцээнүүдэд оролцож эхэлсэн талаар яръя гэж бодож байна. Намайг Японд ажилд яг орж байх үед Deep Learning, Machine Learning мода-нд орж байв. Бүх хүн энэ талаар мэдмээр сурмаар байдаг. Гэхдээ үнэхээр мэддэг хүн цөөхөн байлаа. Онолын сургалтын материал уншиж сонссон ч нэг л хол байдаг байв. Мөн ажлын прожект дээр ML, Deep Learning model ашиглах боломжууд гарч ирсэн ч би хэр сайн хэмжээнд ашиглаж байгаагаа мэдэхгүй байлаа. Энэ үед энэ чиглэлийн тэмцээний зохион байгуулдаг Японы нэгэн вэб сайт гарч ирсэн нь нь Signate байлаа.

Kaggle-г мэддэг хүмүүст бол Японы Kaggle гээд хэлчихэд нэг их буруудахгүй байх. Шинээр эхэлж байсан болохоор тэмцээнүүд нь их сонирхолтой мөн илүү ойлгомжтой амар байдаг байв. Мөн Японы компаниуд өөрсдөд нь тулгарч буй асуудлаа шийдүүлэхийн тулд sample data буюу датаны нэгээхэн хэсгийг ашиглаж болохоор өгдөг нь их таалагдсан. Signate-н анхны тэмцээнүүдийн нэг болох нэрийн хуудаснаас хэрэгтэй мэдээллийг задалж харуулдаг тэмцээнд орсон нь миний хувь DL, ML чиглэлээр суралцах хүслийг улам нэмэгдүүлсэн билээ.

Тэмцээний хувьд 1 сараас 2 сар орчим гэсэн урт хугацаанд үргэлжилнэ. Яагаад гэвэл 1 модел сургаад үр дүн гаргах процесс ер нь удаан. Унтахын өмнө машинаа сургаж, шөнөжин суралцаж гаргасан үр дүнг өглөө ашиглах жишээтэй. Мэдээж GPU (Graphics processing unit) , TPU (Tensor processing unit) гэх мэт өндөр хүчин чадал бүхий тооцоолон бодох чадвартай машинууд серверүүд олон байвал асуудал мэдээж өөр. Мөн өдөрт дээд тал нь 5-хан удаа үр дүнгээ явуулж болно. Тэгэхээр сайн болсон үр дүнгээ л явуулахгүй бол болохгүй. Хэдэн цаг, хоног зарцуулан байж гаргаж ирсэн дүн чинь сайн биш байвал хааяадаа keyboard-оо аваад шидчихмээр ч юм шиг санагдах үе бий 😣

Гэхдээ цаг хугацаа хөдөлмөр зарцуулагдаж байгаа болохоор тэр хэмжээгээр шагналын сан өндөр. Нэг тэмцээний шагналын нийт сан бараг 100 сая төгрөг болж байна.

Миний хувьд computer vision төрлийн таскуудад дуртай. Хэн ч харсан ойлгомжтой байдаг болохоор тэр байх. Их сургуульд ч гэсэн энэ чиглэлийн судалгаа хийж байсан маань оролцоход арай дөхөм болдог байлаа.

Оролцсон гол тэмцээнүүд гэвэл:

  1. Нэрийн хуудсын мэдээллийг ялгаж ангилах: Нэрийн хуудсан дээр байх компанийн нэр, хүний нэр, утас, факс, мэйл хаягийг автоматаар ялгах хэрэгтэй. Гол асуудал нь Япончууд үсгээ хэвтээ босоо аль аль чиглэлд бичдэг болохоор тэрийг ч бас ялгах хэрэгтэй байв. Энэ тэмцээний 3-р байранд их сургуулийн оюутан хүүхэд орсон ба rotation-invariant feature буюу тухайн зургийг хэдэн градусаар ч хамаагүй эргүүлсэн онцлогоо хадгалдаг онцгой цэгүүдийг ашигласан шийдэл хамгийн энгийн бөгөөд ойлгомжтой гоё шийдэл байв.
Sansan

2. Хүнсний ногоог ялган таних: Японы хоолны жорны сайтны үйл ажиллагааг эрхэлдэг Cookpad-аас зохиосон тэмцээн. Ялгах илрүүлэх гэсэн 2 тусдаа таск байсан. Тэмцээний хувьд Deep Learning-д суурилсан арга object classification, detection model ашиглах нь тодорхой байсан ч хүнсний ногоонуудын зарим олон ширхэгтэйгээр, зарим нь цөөн буюу ганцхан ширхэгтэй ногооны зургууд их байсан тул data augmentation хамгийн чухал түлхүүр болсон. Мөн зарим ногоонууд нь их урт нарийхан байсан болохоор тэрийг object detection model сонголтоо зөв хийх хэрэгтэй байв. Зарим model маань энэ тал дээр муу илрүүлдэг талтай. Дашрам дурдахад Cookpad -н инженерүүдэд гадаад улсын инженерүүд их. Миний мэдэхийн маш сайн ML инженерүүдтэй газар. Монгол 2 инженер ажиллаж байгааг хэлэхэд тун таатай байна.

Cookpad

3. Uniqlo-н хувцасны өнгийг тодорхойлох: Uniqlo-г мэдэхгүй хүн гэж бараг байхгүй болов уу? гэж бодож байна. Энэ тэмцээн нь Uniqlo-н хувцасны голлох өнгийг олох хэрэгтэй байв. Миний нэг их сайн ойлгоогүй тэмцээн байсан. Янз бүрийн эрээн хувцас, мөн 3 өөр өнгийн оймсны голлох өнгийг олно гэх мэт ойлгомжгүй хэсэг их байсан.

Uniqlo

4. Receipt унших: Манайхаар бол ебаримтан дээрх таны худалдан авалтын дүн, юуг худалдан авсан мөн тухайх дэлгүүрийн мэдээллийг илрүүлж унших ёстой. Дотроо бас receipt маань 3 компанийн төрөлтэй, тус тусын нэгдсэн стандарттай ч зарим баримт нь урт богино, мөн нугалаад дэлгэсэн баримтууд ч байсан нь text detection, recognition сайн ажиллахгүй хамгийн хэцүү хэсэг нь байв. Мөн сүүдэр орсон, гэрэл цохьсон гэх зурагнууд байсан ч баримтыг цэвэрхэн авч чадвал тодорхой хязгаарлагдмал нөхцөлд ажиллах боломжтой систем хийх боломжтой гэдгээ ойлгосон.

Blanca

5. Автомат жолоодлоготой машинд зориулагдсан обьект танилт: Токио болон Сайтама хотын замд авсан зурагнууд дээрээс жижиг оврын машин, явган зорчигч, том оврын ачааны машин, гэрлэн дохио, замын тэмдэглэл, унадаг дугуйг илрүүлэх ёстой. Эдгээр нь автомат жолоодлогот машины хувьд зайлшгүй олж илрүүлж таньж чаддаг зүйлс. Бас л Deep Learning-д суурилсан object detection model ашиглах нь тодорхой ч зурагнууд дээр зарим машин нь том, зарим маш жижигхэн байдлаар харагдаж байгаа. Мөн гэрлэн дохио маань маш жижиг биет тул тус бүрд зориулсан модел үүсгэх нь гол түлхүүр байсан гэж бодож байна. Харамсалтай нь би өөрөө энэ тэмцээнд сүүлийн 2,3 долоо хоногт л оролцсон болохоор сайн үр дүн үзүүлж чадаагүй.

METI Ministry of Economy, Trade and Industry, Japan

6. Хиймэл дагуулын зургаас хөдөлгөөнт болон зогсож буй хөлөг онгоцыг хайж олох: Aerial image буюу нисэх онгоц, хиймэл дагуул мэт өндрөөс авсан зурагнаас усан онгоцыг илрүүлэх ёстой. Зургийн хувьд 20000x20000 пиксэл гэх мэт маш том хэмжээтэй зурган дээр байгаа бүх усан онгоцыг илрүүлэх ёстой. Үндсэн санаа нь том хэмжээний зургуудыг олон хэсэгт жижиг хэсэгт хувааж процесс хийх явдал байв. Мөн хичнээн дагуулын зураг ч zoom буюу томруулан харахад зургийн чанар унадаг. Тийм болохоор image enhancement, super resolution ашиглах нь гол түлхүүрүүд байх байсан болов уу. Анх удаа хиймэл дагуулын зурган дээр ажиллаж үзсэн маань сонирхолтой байв. Үүнийг ашиглаад хот доторх машины хөдөлгөөнийг харах боломжтой юм гэж бодож байлаа.

Tellus Open&Free Platform

За тэгээд ямар ч тэмцээн хэр сайн гүйцэтгэснээрээ уралдана. Чиний нэр чинь scoreboard буюу онооны самбар дээр гараад ирнэ. Хэн ч өөрийнхөө нэрийг өөр хэн нэгний доор байлгахыг хүсэхгүй. Тэгээд үзэж тарна. Онооны жаахан зөрүү ч гэсэн маш чухал болж ирнэ. Тийм болохоор яаж моделоо жаахан ч гэсэн яаж сайжруулах уу өдөр тутам бодно. Янз янзаар судалж үзнэ туршиж үзнэ. Мөн тэмцээнд цорын ганц хамгийн зөв шийдэл гэж байхгүй болохоор асуудлыг олон өнцгөөс олж харж шийдэл олох хэрэгтэй болно. Тэгж чадсан хүн түрүүлнэ.

Тэмцээн дуусах үед шинэ санаанууд, тодорхой хэмжээнд судалсан онол материал болон янз бүрээр туршсан оролдлогууд, ядаж л бичсэн код ( заримдаа хэдэн мянган мөр код бичсэн үе байдаг байв) маань үлддэг байлаа.

Мэдээж эхэндээ би зүгээр юм сурахын тулд орж байгаа мөн ажлынхаа хажуугаар оролцож байгаа юм чинь гэж тэмцээнд муу оролцсон өөрийгөө өмөөрдөг байв. Гэтэл энэ жилээс яагаад сайн амжилт үзүүлээд эхний байруудад шалгарч яагаад болохгүй гэж бодогдох болов. Тэмцээнд орж байгаа ихэнх хүмүүс надтай адилхан ажилладаг сурдаг хүмүүс байгаа. Бүгдэд нь адилхан боломж өгөгдсөн.

Signate-н хувьд эхэндээ багаар оролцох боломжгүй байж байгаад жилийн өмнөөс багаар оролцох боломжтой болсон. Энэ удаад энэ постыг бичиж байгаа маань иймэрхүү уралдаан тэмцээнд ордог, мөн орохыг хүсч байгаа хүмүүстэй холбогдох зорилготой. Олуулаа байвал илүү сайн шийдэл гаргаж чадна.

Энэ л миний эдгээр тэмцээнүүдэд оролцоод ганц ойлгосон хамгийн чухал зүйл байлаа. Ганц хүн айл болохгүй, ганц мод гал болохгүй. Багаар оролцдоггүй юмаа гэхэд тэмцээний дараа яаж оролцсон талаар санал бодлоо солилцож бие биенээсээ суралцах хэрэгтэй. Удахгүй Data Hackathon буюу энэ чиглэлийн миний мэдэх анхны хакатон Монголд болох сурагтай байгаа. Та бүгд өөрсдийн сурсан мэдсэнээ харамгүй хуваалцана гэдэгт найдаж байна.

Надтай холбогдож цуг баг үүсгэн тэмцээнд оролцох хүсэлтэй хүмүүс байвал мэйл бичээрэй. Эсвэл санал бодлоо зүгээр солилцсон ч болно. Миний хувьд бараг жил тэмцээнд ороогүй байж байгаад сүүлийн 2 тэмцээнд ороход өөрийгөө ямар их хоцрогдсоныг л мэдэрсэн :( Мэдээж инженер хүний хувьд өөрийгөө голох бодол төрсөн ч нөгөө талаас шинэ шинэ техник аргачлал гарж ирсэн байсан нь дахин суралцах хүслийг маань өдөөсөн. Мөн анхлан сурж байгаа оюутан залууст өөрийн мэддэг зүйлсээс хуваалцах нь гадаадад суралцаж төгссөн хүний хувьд миний хүлээх ёстой үүрэг гэж боддог.

Сүүлд нь зарын чанартай зүйл оруулчихъя. Миний ажиллаж буй АНДСистемс хэмээх компанид Дата аналист, ML инженерүүдийг ажилд авж байгаа. Та бүхэн сонирхвол дараах https://andsystems.net/ хаягаар ороод үзээрэй. Анхаарал тавин уншсан та бүхэнд баярлалаа.

bilgee bayaraa

Written by

Сонирхол: #ComputerVision, #CG, #Deeplearning, #Machinelearning вэб: https://bilgee.com/

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade