Tekst og tale er også data

Hvad er Natural Language Processing og hvordan får vi udbytte af teknologien i Danmark

Som GTS-institut er vi hos Alexandra Instituttet med til at skabe noget af den teknologi, som danske virksomheder skal skabe ny forretning med. Et af de teknologiske områder, vi arbejder med, er Natural Language Processing.

Hvis det er et nyt område for dig, har vi her lavet en kort introduktion, der dækker det grundlæggende: Hvad handler Natural Language Processing om, hvad kan det bruges til, og hvordan får vi udbytte af teknologien i Danmark?

Vi starter på vestkysten i USA. Sidste forår demonstrerede Google på deres årlige udviklerkonference, at deres digitale assistent, Assistant, kan ringe op og aftale tid hos frisøren eller booke et bord på en restaurant, uden at personen i den anden ende lægger mærke til, at han eller hun netop har talt med en computer og ikke et menneske. Det vakte stor begejstring.¹

Nyheden om Googles demo nåede bredt ud i medierne. Dels fordi en af de store teknologigiganter nok engang skubbede til grænserne for, hvad der teknologisk er muligt, men måske særligt fordi demoen genåbnede diskussionen om, hvornår en computer kan siges at opføre sig intelligent.

Samtidig blev det også åbenbart, at de store teknologivirksomheder har planer om, at vi fremadrettet i højere grad skal tale til og med devices, og at vores devices vil blive langt bedre til at forstå, hvad vi er i gang med, og hvad vi ønsker, baseret på det, vi taler eller skriver om.

Google Assistant og lignende produkter består af mange forskellige komponenter og teknologier, men hjørnestenen i produkterne er de teknologier, der gør disse digitale assistenter i stand til at forstå, hvad der foregår i en samtale og indgå i dialogen, hvilket langtfra er trivielt. Den slags teknologier samles oftest under betegnelsen Natural Language Processing eller forkortet bare NLP.

Formelt placerer NLP-feltet sig derfor naturligt som et område inden for kunstig intelligens, og som betegnelsen antyder, er feltets omdrejningspunkt at processere naturligt sprog.

Ordet processere bruges typisk om den proces, hvor en computer behandler information. Naturlige sprog er en samlebetegnelse for de sprog, vi formulerer os på gennem tale og skrift — dansk, engelsk, kinesisk osv. Mere mundret kan man derfor sige, at NLP handler om at skabe software, der gør computere i stand til at trække kompleks information ud af tekst og optagelser af tale og foretage handlinger på baggrund af det.

Mere end chatbots

I dansk sammenhæng bliver NLP ofte kædet sammen med chatbots og den (desværre uforløste) hype, der fulgte med dem for et par år siden. Først skulle alle have én, så var de yt, fordi de ikke virkede, men nu er de muligvis på vej tilbage igen — med bedre balance mellem forventninger og teknologiens kvalitet.

Men selvom NLP handler om chatbots og digitale assistenter, så handler det om mere end det. NLP-teknologier bruges også til andre ting som for eksempel til at monitorere, hvordan produkter og brands omtales på nettet², til at optimere søgealgoritmer³ og til at klassificere store mængder tekst, så man slipper for at gøre det manuelt.

Mulighederne for at anvende NLP er med andre ord brede, og det vil være ærgerligt at begrænse dem ved at sætte lighedstegn mellem NLP og chatbots. Lidt forsimplet kan man sige, at har du en større mængde tekst, som du ønsker at kende til indholdet af, eller ønsker du at finde ud af, hvordan sammenhængen er imellem disse tekster, så kan NLP-teknologier potentielt hjælpe med det.

Ideen om at processere naturlige sprog går også længere end bare et par år tilbage. Så længe der har været computere, har der været folk, der har beskæftiget sig med at få computere til at kunne imitere bare en smule af de sproglige evner, som de fleste mennesker har. Og med god grund. I utallige generationer har vi skrevet det meste af det, vi ved, ned, og det vil være en stor hjælp, hvis computere kan læse og forstå al den data.

Grunden til at NLP rykker hurtigt nu er, ligesom med andre områder inden for kunstig intelligens, at omkostningerne ved at opbevare og processere data er faldet markant, samtidig med at vi har fået mange flere data at arbejde med.

Vi er bagud på dansk

Der findes over 7000 sprog i verden.⁴ Når den data, der skal bruges til at udvikle systemer, er tekst eller tale, er det en udfordring for mindre sprog. Dels fordi der er langt mindre tilgængelig data, men markedets begrænsede størrelse betyder også, at interessen fra de store teknologivirksomheder for at udvikle til det er væsentlig mindre.

På engelsk og flere andre større sprog som kinesisk og spansk findes der mange værktøjer. Nogle af de værktøjer kan også bruges på dansk tekst, dog med begrænset præcision. Hvis vi gerne vil kunne nogle af de samme ting på dansk, skal vi i gang med at udvikle værktøjer, der kan håndtere dansk, så det danske samfund kan få udbytte af den nye teknologi.⁵

Derfor er vi også meget glade for at have fået opbakning af Uddannelses- og Forskningsministeriet til at gøre noget ved det.⁶ Sammen med offentlige organisationer, universiteter og private virksomheder er vi derfor i gang med at udvikle DaNLP, der er et open-source repository, som skal gøre det lettere og billigere at komme i gang med NLP af tekst på dansk.

Vi skriver løbende blogindlæg om udviklingen her på siden, men du kan også følge med på GitHub, hvor vi løbende lægger nye versioner og værktøjer ud.

En blog om NLP

Hvis du stadigvæk læser med, så først og fremmest tak for din opmærksomhed. Vi håber, at det står lidt mere klart for dig, hvad Natural Language Processing handler om.

I kommende blogs skriver vi om specifikke emner inden for Natural Language Processing. Du kan allerede nu læse om, hvordan vi repræsenter tekst, så en computer kan regne på det.

Vi vil altid gerne i dialog med virksomheder og andre organisationer, som er interesserede i NLP. Skriv gerne til os på danlp@alexandra.dk

Noter

[1] Det har senere vist sig, at Google benytter tvivlsomme metoder til at indsamle noget af den data, der bruges til at videreudvikle og forbedre Assistant. Link

[1.1] Det tyder i øvrigt på at nogle restaurantejere er knap så begejstret som deltagerne på Googles udviklerkonference: Link

[2] Se for eksempel denne artikel fra Kommagasinet.dk om ‘social listening’. Link

[3] Hvis man træner en computer til at kunne genkende forskellige entiteter i tekster, som fx lokationer, organisationer, navne, individer, byer, produkter eller tidspunkter, kan man reducere processeringstiden markant, eller man kan bede computeren klassificere mail eller kundehenvendelser, efter hvad de indeholder. Link

[4] Tallet er fra Ethnologues website: www.ethnologue.com

[5] Vi har tidligere skrevet mere detaljeret om denne udfordring. Se for eksempel vores debatindlæg i Aarhus Stiftstidende: Vi får kun glæde af kunstig intelligens, hvis vi udvikler danske algoritmer

[6] Se www.bedreinnovation.dk/dansk-alle for nærmere beskrivelse.

DaNLP

DaNLP er et open-source repository, der indeholder…

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store