Klassifitseerija aitab infokülluses orienteeruda

Majandus- ja Kommunikatsiooniministeerium
Digiriik
Published in
3 min readMay 19, 2023

Kas poleks mitte kena, kui keegi haldaks pidevalt sissetulevat infokirjade voogu? Ajakirjaniku päring, reklaamkiri, kutse konverentsile ja kolleegi koostööpalve leiaksid igaüks sobiva pesa ja aja, millal nendega tegeleda. Just sellist kratilahendust nimega „klassifitseerija“ saab endale sobivaks treenima hakata.

Photo by Jan Antonin Kolar on Unsplash

Mis on klassifitseerija?
Klassifitseerija on algoritm (või mudel), mis õpib treeningandmete põhjal määrama sissetulevatele andmetele sobiv klass või kategooria. Kategooriad loob krati omanik, töö teeb juba kratt. Klassifitseerija võib olla kasutatav erinevates valdkondades, näiteks tekstianalüüsis, pildituvastuses või meditsiinilistes diagnoosides, aidates automaatselt liigitada uusi andmeid vastavalt eelnevalt õpitud mustritele ja tunnustele.

MKMi digiarengu valdkonna andmete meeskonna konkreetne huvi on kasutada klassifitseerijat tekstianalüüsis. Täpsemalt tahame seda rakendada kliendipöördumiste jaoks, et asutuse sissetulevad meilid leiaksid tulevikus automaatselt õige vastaja või saaksid hoopis automaatvastuse.

Kratt vajab täpset ülesannet

Selleks, et uuest lahendusest kasu saada, peab tegema pisut eeltööd. Kõige olulisem on kokku leppida teemade või kategooriate jaotus. Kategooriad peavad olema adekvaatsed järgnevate tegevuste efektiivseks automatiseerimiseks. Kui teema on valitud liiga lai, ei ole automaatsest klassi määramisest kasu. Samas kui teema on liiga kitsas, võib tekkida probleem treeningandmete leidmisega, mis omakorda mõjutab klassifitseerija veamäära.

Klassifitseerija treenimiseks peab olema ka piisavalt andmeid. Täpne number iga klassi kohta võib erineda, sest see sõltub erinevatest faktoritest nagu andmete esinduslikkus, tunnuste arv, algoritmi tüüp. Mida paremad on treeningandmed, seda vähem näiteid on ühe klassi kohta vaja. Üldiselt võiks aga arvestada, et iga klassi kohta oleks vähemalt 100 meili.

Klassifitseerija headus sõltub treenimisandmete kvaliteedist

Kui klassid on olemas ja iga klassi kohta on piisavalt näiteid, on oluline tagada, et need andmed oleksid täpselt samal kujul nagu tulevikus sissetulevad meilid. Vastasel juhul on treening olnud kasutu ja klassifitseerija ei tööta. Andmekvaliteet on klassifitseerija õppimise ja ennustamise seisukohast kriitiline.

Puhtad, täielikud, esinduslikud ja tasakaalustatud andmed tagavad klassifitseerija parema jõudluse, usaldusväärsuse ja võime uusi andmeid õigesti liigitada.

Andmed peavad olema puhtad selleks, et klassifitseerija õpiks ainult olulisi mustreid ja seoseid, mitte müra või ebaolulisi andmeid.

Treeningandmete täielikkus tähendab, et kõik vajalikud tunnused või atribuudid on saadaval.

Esinduslikkus on oluline selleks, et kajastada reaalsete andmete mitmekesisust ja jaotust. Kui treeningandmetes ei ole klassid tasakaalus, ehk ühe klassi näiteid on märkimisväärselt rohkem kui teise omi, võib see põhjustada klassifitseerija kallutatust ühe klassi suunas. Oluline on tagada, et treeningandmetes oleks piisavalt näiteid igast klassist, et klassifitseerija saaks õppida kõigi klasside eristamist.

Esialgne panus tasub end ära

Klassifitseerija treenimine on suuremat alginvesteeringut nõudev ettevõtmine. Klasside loomist ja igale klassile piisava hulga näidete leidmist ei saa teha keegi väline, vaid tuleb teha majasiseste ressurssidega. Andmete standardiseerimise ja klassifitseerija algse treenimise saab aga usaldada välistele professionaalidele.

Selleks, et klassifitseerijast oleks kasu, tuleb sellesse järjepidevalt panustata. Samas on klassifitseerija pidev uuendamine kordades väiksem ajakulu kui esmane treening. Kui vastutasuks on võimalik automatiseerida 5%, 10%, 20% või enam meilidele kuluvast ajast, siis tasub see üsna kiirelt ära.

Tulevik paistab helge

Tulevikus, kui klassifitseerijaga on liitunud juba mitu asutust, soovime tööle panna ka asutustevahelise klassifitseerija. See võimaldaks valele asutusele saadetud meilid suunata automaatselt õigele asutusele. Iga kord kui mõni asutus oma klassiftseerimismudelit uuendab, laetakse uuendatud mudel üles keskse mudeli jaoks. Selle kaudu saaks keskne mudel õppida ilma, et andmed asutusest kunagi lahkuksid. Mida rohkem asutusi liitub, seda paremini see mudel töötab.

Selleks et klassiftseerimisprojekti saaks asutuses edukalt läbi viia, on vaja asutuse huvi ja juhtkonna toetust. Klassifitseerija on sisuliselt kohe valmis treenimiseks, tuleb vaid detailides kokku leppida.

Kui tekkis huvi klassifitseerijat juurutada või täiendavaid küsimusi, kirjutage julgelt Veiko.aunapuu@mkm.ee.

Veiko Aunapuu
Krati teenuste tootejuht
MKM

--

--