Suomenkielistä “tukiälyä”

Published in

KelaLab

2 min readNov 13, 2019

Olemme KelaLabissa kartoittaneet tänä vuonna aktiivisesti suomen kielen NLP-työkaluja (natural language processing) ja pyrkineet verkottumaan muiden saman aihealueen kanssa painivien organisaatioiden kanssa. Ongelma on monelle suomalaiselle organisaatiolle yhteinen; miksi emme hakisi ratkaisuja yhdessä?

https://commons.wikimedia.org/wiki/File:Mikael_Agricola_by_Albert_Edelfelt.jpg?uselang=fi

Yhteistyötä yli rajojen

Vake julkaisi hiljattain esiselvityksen suomenkielisen tekoälyn kehittämisestä:

Suomenkielisen tekoälyn kieliresurssien kehittäminen etenee

Vake aloitti suomenkielisen tekoälyn kehittämisen toukokuussa 2019. Hankkeen tavoitteena on, että tekoälykehittäjät…

vake.fi

Myös Kela antoi työhön kontribuutionsa, koska aihe on yhteinen ja työtä on paljon. Suomen kielen tekstianalytiikka sekä puheentunnistus ja puheen tuottaminen (puhesynteesi) ovat lähitulevaisuuden yhteisiä haasteita lähes jokaiselle Suomessa toimivalle organisaatiolle — tai ainakin niille, jotka käyttävät toiminnassaan suomen kieltä ja haluavat hyödyntää tekoälyn tuomia mahdollisuuksia.

KelaLab on tänä vuonna brainstormaillut myös VTT:llä ja Aalto-yliopistolla sekä tutustunut FCAI:n (Finnish Center for Artificial Intelligence) toimintaan. Etsimmekin jatkuvasti relevantteja kumppanuuksia.

Käytännössä eri organisaatioiden yhteistyö voisi olla opetusdatan keräämistä yhteiseen käyttöön sekä esikoulutettujen kielimallien tuottamista. Esim. uusinta uutta edustavien BERT-/XLNet -mallien (BERT=Bidirectional Encoder Representations from Transformer, jopa satoja miljoonia parametreja) kouluttaminen on laskennallisesti raskasta, joten esikoulutettujen yhteiskäyttöisten mallien luominen olisi paitsi järkevää myös energiatehokasta.

Suomenkielinen tekoäly Kelassa

Kelassa mahdollisia käyttötapauksia on useampia aina asiakaspalvelun apu-boteista ja asiakaspalautteen analysoinnista entiteettien tunnistamiseen NER –mallilla (named entity recognition). NER-mallin ja muiden tiedonlouhintatyökalujen avulla pystymme mahdollisesti tuomaan rakennetta strukturoimattomaan tekstimassaan sekä poimimaan tekstidatasta oleellisia tietoja rakenteelliseen muotoon.

NER-mallia/-malleja testaamme todennäköisesti jo lähitulevaisuudessa osana innovaatiotoimintaamme. Sopivaa opetusdataa meillä ei ole niin suuria määriä, jotta pystyisimme näitä malleja kouluttamaan alusta lähtien, mutta siirto-oppimista varten meillä saattaisi olla tarpeeksi aineistoa. Joka tapauksessa tarvitsemme pohjaksi jonkinlaisen esikoulutetun suomen kielen kielimallin.

Alla on esimerkki BERT-pohjaisesta NER-mallista, jolla pystytään jossain määrin tunnistamaan entiteettejä myös suomen kielellä. Haaste ei ole siis mahdoton, mutta dataa tarvitaan ja tekemistä riittää, jotta suomalaiset saisivat tulevaisuudessa saman tasoista palvelua kuin englantia ja kiinaa äidinkielenään puhuvat.

Suomen kielen BERT-pohjainen NER (aineistona katkelma Ylen uutisesta)

Mitä seuraavaksi?

Käyttöliittymät ovat murroksessa. Etenkin puhekäyttöliittymien merkitys korostunee tulevaisuudessa. Jos haluamme, että viiden vuoden päästä suomen kielellä pystytään tekemään kaikkea sitä mitä maailman valtakielillä, on relevanttien kotimaisten tahojen laitettava “hynttyyt yhteen” ja ymmärrettävä se, että joudumme ehkä tuottamaan jonkin verran “yhteistä hyvää”. Se on kaikkien etu.