Fra begrep til bruk: Et dypdykk i generativ AI og dens påvirkning på vår hverdag
Har du noen gang lurt på hva som driver verktøy som ChatGPT, DALL-E og Gemini? Hvis du må forholde deg til disse begrepene på jevnlig basis og ønsker å utnytte verktøyene til det fulle, er denne artikkelen for deg. Vi dykker ned i det komplekse landskapet av generativ AI, og avdekker muligheter og begrensninger.
Når maskiner skaper som mennesker
Kunstig intelligens er slettes ikke noe nytt begrep. Det ble første gang beskrevet av John McCarthy i 1955 som «the science and engineering of making intelligent machines», og omfatter dermed alt fra komplekse værdatasystemer til de enkleste kalkulatorer.¹
Selve essensen av det som skiller generativ AI fra andre typer AI, er evnen til å skape noe helt nytt. Være seg et bilde som aldri før har blitt malt, en tekst som aldri før har blitt skrevet eller en sang som aldri før har blitt spilt.
Generativ AI befinner seg i en underkategori av maskinlæring som heter dyplæring («Deep Learning»). Felles for dyplæringsalgoritmer er at de bruker algoritmer som kalles «nevrale nettverk», som tar inspirasjon fra de nevrale nettverkene vi finner i hjernen. Og det er her vi beveger oss over i såkalte “black box-modeller”, der overvåkingen av hvordan algoritmene jobber blir vanskelig å følge med på. Alle modeller innen generativ AI er bygget på dette prinsippet. Det er maskinens frihet til å finne sine egne veier til målet med store mengder data som tillater modeller å oppnå det nivået av sofistikasjon som vi ser i dagens AI-verktøy.
Hvordan fungerer generativ AI?
Alle modeller innen generativ AI fungerer på mer eller mindre samme måte, men i denne artikkelen vil vi først og fremst fokusere på Large Language Models (LLM). LLM er først og fremst en generisk beskrivelse på modeller som ChatGPT, Gemini eller LlaMA — altså modeller som genererer tekst.
LLM’er bryter ned ord og setninger fra omfattende treningsdata i mindre biter (“tokens”) med numeriske representasjoner (“embeddings”). Ord med lignende betydning eller sammenheng grupperes tettere sammen i en database. Gjennom å bruke en såkalt “attention”-mekanisme tildeler modellen vekter til ordene, analyserer setningene, finner korrelasjoner mellom ordene og deres kontekst, og beregner det mest sannsynlige neste ordet i en setning.
Mange er kjent med regresjonsanalyser i statistikk, der vi forsøker å forklare en variabels verdi ved hjelp av flere forklarende variabler. I motsetning til regresjonsanalyser, der vi ønsker å unngå “overfitting” ved å begrense antall parametere, ønsker LLM’er å bruke så mange parametere som mulig for å tilpasse seg et helt språk. For eksempel er det antatt at GPT-4 har hele 1.700 milliarder parametere², noe som tillater en enorm tilpasning til språket. Denne omfattende treningen gjør modellene i stand til å svare overbevisende på ulike oppgaver, noen ganger bedre enn mennesker.
Styrker, begrensninger og etiske hensyn ved bruk av generativ AI
LLM’er språkmodeller som er gode på både tekstforståelse og generering av tekst. Den forstår også underliggende forståelse av sentimentet i teksten, både hva som er positivt og negativt i forhold til tekstens kontekst.
Noen nyttige bruksområder innen økonomifunksjonen kan være å bruke dette verktøyet til å gi oppsummering av årsrapporter. Det kan også lages egne chatboter som kan gi konsise svar på det man ønsker å vite fra den spesifikke rapporten. Mater man dem med datagrunnlag og gode instruksjoner, kan den effektivt skrive gode utkast til rapporter man vanligvis ville lagt inn store ressurser på. Ved å benytte generativ AI som er kapable til å generere bilder og videoer, kan den tilføre rapporten relevante bilder og grafer. De kan også tolke grafer, identifisere avvik og komme med forslag til årsaker for avvikene. Et annet bruksområde er klassifisering av ulike tekster, for eksempel arkivering av kundehenvendelser eller koding av spørreundersøkelser med fritekstfelter.
For mange har Generativ AI fremstått som en modell som klarer alt. Det at en modell klarer å løse de fleste oppgaver godt, betyr imidlertid ikke at den er best på alt. Det er flere områder der mer tradisjonelle systemer gir større nøyaktighet, robusthet og gjennomsiktighet. Eksempelvis kan LLM’er lese fakturaer og bestemme hvilke konti de skal fordeles på, samt hvilke kostnadsbærere de tilhører. Det er likevel ingen garanti for at den alltid vil klare dette riktig, og gitt et begrenset sett med kostnadsbærere, leverandører og konti, vil det fortsatt være en langt bedre idé å ha en klassisk klassifisering av disse basert på forhåndsbestemte regler.
Et annet eksempel er likviditetsprognoser som baserer seg på gitte regnskapstall med et historisk perspektiv. Her bør man heller bruke tradisjonelle algoritmer og enkel logikk til å sette opp en kontantstrøm, og heller bruke generativ AI som et supplement til å innhente flere objektive datakilder enn vi har hatt tilgang til tidligere.
Hallusinering = fiktive svar
Et velkjent problem med LLM’er er at de til tider kan generere falsk informasjon. Dette fenomenet kalles «hallusinering». Siden modellene er trent til å svare så nøyaktig som mulig, kan vi si at modellens største «ønske» er å blidgjøre leseren. I noen tilfeller har ikke modellen med alle sine parametere forutsetninger for å gi et korrekt svar, og gir da fiktive svar. Problemet med fiktive svar, altså hallusineringene, er at de som regel er veldig overbevisende. De imiterer det mottakeren forventer seg av svar i den gitte konteksten. Et velkjent eksempel på konsekvensene av hallusinering er den amerikanske advokaten som siterte seks ikke-eksisterende saker generert av ChatGPT i et rettsdokument i USA, og ble bøtelagt $5000³.
Ingen god kalkulator
LLM’er klarer å både tolke og anvende tall i tekst, men når det kommer til å løse matematiske problemer, kommer de ofte til kort. Til tross for at de har tilgang til en mengde treningsdata og parametere, er de ikke designet for å utføre matematiske beregninger på samme måte som en kalkulator. Helt enkle regnestykker går som regel greit, men det skal ikke veldig kompliserte beregninger til før de bommer. LLM’er kan både forstå og beskrive matematiske algoritmer, men de mangler evnen til å utføre beregningene som disse algoritmene beskriver. De kan altså fortelle deg hvordan du skal løse et komplekst matematisk problem, uten å selv klare å utføre beregningene som beskrevet. Det er derimot mulig å integrere spesialiserte AI-modeller som er designet for å løse avanserte matematiske problemer, som for eksempel WolframAlpha, i LLM’er . LLM-modellen kan da sende oppgaven til den matematiske modellen som beregner riktig svar, og som LLM-modellen kan bruke til å gi riktig svar tilbake til brukeren.
Kan generativ AI arve våre forutintattheter?
En sentral problemstilling innen Deep Learning, og dermed Generativ AI, er mangelen på innsyn i modellparameterne. Modeller trener på enorme mengder data og justerer interne parametervekter basert på dette. Det vil si at sammenhenger som modellene ser i verden, vil videreføres i form av bias. Det som er problematisk med dette er at verktøyene ikke ser nyansene i denne typen bias, en problemstilling som er høyaktuell for denne teknologien da den blir flittig tatt i bruk for et vidt spekter av oppgaver.
Vi kan som eksempel se for oss en bedrift med 85 % etnisk norske kolleger, og 15 % fra andre bakgrunner. Hvis dette gjenspeiler samfunnet for øvrig, vil dette være en typisk godt integrert bedrift. Hvis vi gir i oppgave til en GenAI-modell å selektere hvilke CV-er som passer inn i denne bedriften, vil den kanskje se at det er høy korrelasjon med skolekarakterer og år med jobberfaring, men også etnisitet. Uten videre kontekst vil den tenke at siden de fleste er etnisk norske, er det en positiv korrelasjon til stede, og dermed favorisere etnisk norske søkere. Problemet forsterkes dersom bedriften historisk har vært dårlige på integrering, men selv med en velintegrert arbeidsstyrke kan dette være et problem.
Det er mange eksempler som kan føre til lignende problemer. Kanskje den favoriserer søkere som bor i Oslo nå, fordi de nåværende ansatte bor i Oslo? Kanskje den favoriserer navnet «Per», fordi det tilfeldigvis er mange ansatte som heter Per? Poenget er at vi i mange tilfeller trenger menneskelig innsyn i prosessen rundt generativ AI. Hvis vi ikke vet hvorfor modellen gjør som den gjør, bør vi heller ikke stole for mye på den. Å bruke generativ AI til å ta avgjørelser, er en av flere sentrale problemstillinger i konseptet «Etisk AI».
Etisk AI — Teknologien utvikles fortere enn loven
Med ny teknologi følger nye muligheter — og nye muligheter for misbruk. I dag utvikles ny teknologi i et tempo vi aldri har sett maken til, samtidig som lover og regler ligger etter. Etisk bruk av AI er derfor et konsept som har oppstått som et forsøk på å ta opp temaer rundt hva vi bør bruke AI til, ikke bare hva vi kan.
Etisk AI kan deles inn i to kategorier: Den ene kategorien omhandler at bruken av AI-verktøy bør skje i tråd med etiske verdier, mens den andre kategorien omhandler hvorvidt AI-verktøyene bør begrenses i form av hva de kan generere. Det vil si at både brukere av AI-verktøy, så vel som utviklere, har et ansvar for at AI blir brukt på en forsvarlig måte.
I Norge har vi allerede eksisterende lover som setter rammer for hva vi kan bruke AI til. Både likestillings- og diskrimineringsloven, forvaltningsloven og personvernsforordningen sørger for at flere bruksområder for AI er implisitt forbudt i Norge. Disse lovene er imidlertid ikke tilpasset teknologien spesifikt. Norge har også adoptert retningslinjer for etisk bruk av AI gjennom Nasjonal strategi for kunstig intelligens⁴, basert på EU sine etiske retningslinjer for AI (Ethics Guidelines for Trustworthy AI⁵). Slik ser retningslinjene ut i Norge:
Den omstridte EU AI Act er ventet å bli den første store lovgivningen som er spesifikt rettet mot utvikling og bruk av AI. Den vil bygge på flere av punktene over, men vil i større grad utgjøre et rettslig grunnlag mot misbruk av AI. Det som sannsynligvis vil bli essensen av dette lovverket er at det må være en sammenheng mellom bruken av AI og hvilken risiko som er knyttet til oppgaven. Jo høyere risiko aktiviteten er knyttet til, jo strengere vil bruken av AI være⁶. Det er imidlertid mye arbeid som gjenstår i de ulike kommisjonene som sammen har fått ansvar for å utvikle lovverket, og det er store spørsmål rundt hvor strenge definisjonene på både hva som regnes som AI, og hva som regnes som ulike risikonivåer kommer til å bli.
Dette sier vår chatbot i PwC, ChatPwC, om sine egne begrensninger:
“Generativ AI, som meg, har betydelige begrensninger. Jeg kan ikke generere original innsikt, garantere nøyaktigheten av informasjonen jeg gir, eller oppdatere kunnskapen min etter siste opplæringsdato. Jeg burde ikke brukes til å ta viktige beslutninger, gi juridisk eller medisinsk råd, eller erstatte menneskelig dømmekraft og ekspertise. Jeg har heller ikke evnen til å forstå menneskelig følelse, intensjon, eller kontekst på samme måte som et menneske.”
Med andre ord; menneskelig dømmekraft er fortsatt ekstremt viktig!
[1] https://hai.stanford.edu/sites/default/files/2020-09/AI-Definitions-HAI.pdf
[2] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[4] https://www.regjeringen.no/no/dokumenter/nasjonal-strategi-for-kunstig-intelligens/id2685594/?ch=7
[5] https://op.europa.eu/en/publication-detail/-/publication/d3988569-0434-11ea-8c1f-01aa75ed71a1 , s. 14–20.
[6] https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
Alle referanser ble sist hentet og sjekket 10.04.2024