Metoder inden for Explainable AI (XAI)

- Et overblik over forskellige metoder grupperet efter type af forklaring, scope eller hvilken model de forklarer.

Published in

Ansvarlig AI

24 min readNov 18, 2020

Explainable AI (XAI), altså forklarlig kunstig intelligens, har meget fokus i øjeblikket, fordi maskinlæringsmodeller bliver mere ugennemskuelige og komplekse, og fordi datadrevne modeller bliver brugt mere til kritiske beslutninger og af ikke-ekspertbrugere. Der findes dog mange forskellige måder at lave forklarlig kunstig intelligens på og dermed også et hav af forskellige metoder. Ved at definere egenskaber og typer af metoder og forklaringer og ved at give et overblik over de mest kendte metoder, vil vi hjælpe med at finde rundt i junglen af XAI-metoder.

Bekymringer om forklarlighed vedrørende systemer baseret på kunstig intelligens er ikke noget nyt, se f.eks. ‘ekspertsystemer’ [1], ‘case-based reasoning’ [2, 3] eller, for et historisk overblik, se reviewet der blev lavet som del af DARPAs XAI projekt [4]. Men i de sidste 2–3 år er der kommet et hav af nye metoder til at lave forklarlig kunstig intelligens.

Hvad er forskellen mellem de forskellige metoder? Hvilke typer af forklaringer generer de? Og hvilke metoder passer i hvilken situation, til hvilke type data eller modeller? I dette blogindlæg giver vi et overblik over forskellige metoder og grupperer dem ved at definere en taksonomi af XAI-metoder. Taksonomien og inddelingen i forskellige grupper er inspireret af diagrammet fra IBM’s AIX360 open-source bibliotek, Christoph Molnars e-bog og forskellige artikler om XAI-metoder [5, 6, 7, 8, 9, 10, 11, 12].

Helt generelt kan man adskille metoder på måden, man interagerer med dem. De kan være statiske eller interaktive (får man bare en eller flere forklaringer, eller kan man også “spørge” ind til en anden eller dybere forklaring). Der findes dog os bekendt ingen interaktive metoder, så vi fokuserer her udelukkende på statiske metoder.

Desuden kan man gruppere XAI-metoder efter hvilken type af data, de er egnet til, og efter hvilke typer af forklaring de genererer. Der findes både metoder, der kan forklare data, og metoder, der forklarer modellerne. Sidstnævnte kan videre separeres på 1) hvilket område forklaringerne virker på, altså forklarer de dele af modellen (global) eller modellens resultater (lokal), 2) om det er modeller, der kan forklare sig selv (iboende) eller metoder, der forklarer en ugennemsigtig model (post-hoc), og 3) om de er lavet til en specifik type af model.

I det følgende vil vi beskrive, lidt mere i dybden, hvilke typer af data der kan forekomme, hvilke typer af forklaringer der eksisterer, og hvad iboende, post-hoc, lokal og global egentlig betyder, samt nævne nogle eksempler på XAI-metoder i hver kategori. Til sidst giver vi et overblik over et udvalg af metoder i form af et taksonomitræ.

Typer af data

Forklaringer og XAI-metoder er afhængige af den datatype, som modellen er udviklet til. De fleste anvendelser af datadrevne modeller er lavet til tabel-, billede-, tekstdata eller tidsserier.

Tabeldata

Tabeldata data er data, der kan beskrives i form af en tabel, hvor hver kolonne repræsenterer en variabel eller feature, og hver række repræsenterer et eksempel eller datapunkt. Denne type data er brugt i de mest klassiske anvendelser af maskinlæring, såsom fraud detection eller churn prediction. Desuden kan mange andre datakilder tit udtrykkes som en tabel gennem såkaldt feature extraction.

Billeddata

Billeddata er den type data, der forekommer i computer vision-opgaver, såsom object detection, optical character recognition eller image segmentation. Hvert billede i datasættet repræsenterer et eksempel eller datapunkt. Man kan bruge dybe neurale netværk (convolutional neural networks) til billeddata, eller ekstrahere nogle features fra et billede så datasættet kan udtrykkes som en tabel.

Tekstdata

Tekstdata er den type data, der forekommer i NLP-opgaver (natural language processing), som f.eks. named entity recognition, speech to text, eller at analysere toner i debatten. Hver tekst, såsom sætninger, afsnit eller dokumenter, i datasættet repræsenterer et eksempel eller datapunkt. Man kan bruge dybe neurale netværk (recurrent neural networks) til tekstdata, eller ekstrahere nogle features fra tekster så datasættet kan udtrykkes som tabel.

Tidsserier

Tidsserier bliver tit udtrykt som tabeldata, så det kan bruges til maskinlæring. Derfor kan alle XAI-metoder, der arbejder på tabeldata, normalt også bruges på tidsserier.

Typer af forklaringer

Forklarlighed skal altid defineres i en given kontekst. Denne kontekst indeholder mål og andre dimensioner, der er afhængige af tidsbegrænsninger og slutbrugerens ekspertise i forhold til maskinlæring [5] (se også vores andet blogindlæg om forklarlighed).

Tiden, en bruger har til at forstå eller kigge på en forklaring, kan være begrænset i en given applikation, som sætter begrænsninger på forklarligheden. Yderligere begrænsninger og krav er givet fra den type bruger, der interagerer med modellen. Brugerens ekspertise kan være alt imellem en beslutningstager uden teknisk baggrund og høje domæneviden, som læger, dommere, eller planlæggere, over forskere eller ingeniører med en basis, teknisk viden, hen til data scientists og maskinlæringseksperter med en dyb viden om selve modellen. Forskellige typer af brugere har brug for forskellige typer af forklaringer. I den her del af blogindlægget vil vi gerne komme det nærmere, hvilke typer af forklaringer, der findes, og hvordan de udmønter sig. Det er dog ikke en udtømmende liste, og det er vigtigt at bemærke, at nogle gange kan en brugers behov løses gennem UX-design eller forklaringer, der ikke er automatisk genererede.

Eksempler

En måde at generere forklaringer på er ved at bruge eksempler. Fordelen ved forklaringer gennem eksempler er, at det er let forståeligt for slutbrugeren eller domæneeksperten, da eksempler, og dermed forklaringer, kommer fra selve datadomænet. Desuden bruger mennesker tit eksempler til at træffe en beslutning, såkaldt cased-based reasoning [2, 3]. For eksempel når en læge stiller en diagnose, er det baseret på symptomer, og de erfaringer han har med patienter, der har udvist lignende symptomer. Eller når en data-scientist skal løse en opgave, så husker han en opgave, han har løst tidligere, og hvilke metoder og modeller der virkede bedst til at løse opgaven.

Dog giver det kun mening at bruge eksempler som forklaring, hvis selve data let kan repræsenteres og er forståeligt. Det gælder for eksempel for billeder eller tekst, som mennesker kan give en mening til. Det kan også virke for tabeldata, men det kræver, at kolonner (variabler) har en mening, som pris, antal værelser eller hustype for et hus-datasæt, og at der kun er en håndfuld kolonner, ellers er enkelte datapunkter ikke gennemskuelige.

Eksemplerne kan komme direkte fra dataene, der blev brugt til at træne modellen, fra et andet dedikeret eksempel-datasæt eller kunstige data, der er genereret ved modifikation af ægte data. Vi vil nu beskrive tre typer af forklaringer gennem eksempler. Du kan også finde mere om det i Christoph Molnars e-bog.

Visualisering af forskellige eksempel forklaringer. — Her vises forskellige typer af eksempel-forklaringer baseret på en “black-box”-model, der er trænet på data, som indeholder dokumenter af to klasser (turkis og orange). Hvert dokument er beskrevet af 3 features (cirkel, triangel og kvadrat), som kan have to mulige værdier (sort eller hvid). Når et nyt dokument (grå) kommer ind og bliver klassificeret af modellen (her som tilhørende den orange klasse), kan der laves tre forskellige typer af eksempel-forklaringer: 1) Vi tager det dokument fra træningsdata, der ligner det nye dokument mest, 2) vi genererer et kunstigt dokument, som ligner det nye dokument mest muligt, men vil få en anden klassifikation, 3) modellen, eller en anden metode, finder en prototypisk forklaring, altså det dokument eller dele af dokumentet, der bedst beskriver den valgte klasse (orange). I alle tre tilfælde kan vi se, at farven af trianglen er den mest afgørende faktor for, at modellen kommer frem til sit resultat.

Prototyper

Eksemplerne kan både bruges som forklaring af selve data eller for at forklare en models resultat. For at forklare data søger man efter de eksempler i et datasæt, der bedst repræsenterer datasættet, såkaldte prototyper. Når man har et datasæt med forskellige grupper (klassifikationsproblem), vil man som regel finde prototyper for hver klasse.

Udover prototyper er det også vigtig at kunne afgrænse datasættet, altså finde de datapunkter der ligger på grænsen af datasættet eller længst væk fra prototyperne, såkaldt criticisms. Det blev først præsenteret fra Kim et al. sammen med deres MMD-critic metode [13]. ProtoDash er en anden metode til at finde prototyper og criticisms og er en videreførelse af ‘MMD-critic’ lavet af en IBM-forsker [14].

Udover at finde repræsentative datapunkter i et datasæt findes der også modeller, der sammen med deres output giver en prototype-forklaring [15, 16].

Eksempler fra træningsdata

Eksempler kan ikke kun bruges til at forklare data, men også til at forklare et bestemt resultat af modellen [17]. En måde at gøre det på er at finde de eksempler fra træningsdata, der havde mest indflydelse på modellens beslutning [18]. Det kræver, at man definerer en såkaldt influencer-funktion, der kan beregne indflydelsen.

En klassisk maskinlæringsmodel, der træffer beslutninger baseret direkte på eksempler fra træningsdata, er k-nearest neighbour (k-NN). Her får man forklaringer som eksempler “gratis” sammen med modellens resultat. Der findes også forskning til at bruge k-NN sammen med et dybt neural netværk til at både lære komplekse sammenhæng i data og få en forklaring [19].

Counterfactuals

En anden måde at bruge eksempler som en beslutningsforklaring på er at finde counterfactuals [20]. Counterfactuals undersøger, hvad der ville være sket, hvis udgangspunktet havde været anderledes, altså hvilke fakta-ændringer der ville have sørget for et modsat resultat. Hvis man for eksempel får afvist et lån, så kan det være, at man ville have fået det, hvis man havde en højere indkomst. Den form for kontrastiv forklaring er også tit brugt af mennesker [21].

Der findes forskellige metoder til at generere counterfactuals på, både til tabeldata [22], billeddata [23] og forskellige datatyper [24, 25].

Regler

Regel-baserede modeller, såkaldte ekspertsystemer, har været måden at lave forklarlige modeller på og var meget populære i 80’erne. I disse systemer bliver regler defineret af domæneeksperter, og så kan de bruges til en automatisk beslutning. Disse regler har en hvis-så form, f.eks. hvis der er skyer, og gulvet er vådt, så har det regnet. Reglerne kan have flere betingelser (“der er skyer”, “gulvet er vådt”), men kun maksimalt to resultater (“det regnede”, ”det regnede ikke”). Reglerne kan kombineres med hinanden og udføres efter hinanden, dvs. en regel bestemmer hvilken regel, der skal bruges i næste trin.

Udover ekspertsystemer findes der også maskinlæringsmodeller, der automatisk genererer regler baseret på sammenhænge i data [26, 27, 28]. En bestemt form af disse modeller er beslutningstræer, hvor regler er binære (en betingelse og to veje) og kombineret i et træ. Beslutninger bliver så lavet ved at starte i roden af træet og følge regler igennem, indtil man lander i et blad, som udgør resultatet.

Regler kan både bruges til at forklare hele modellen gennem alle reglerne, modellen består af, og som lokal forklaring ved at give de regler der var afgørende for en bestemt beslutning [29].

Feature attributions

Feature attributions er den type forklaring, der er mest udbredt i de metoder, der er blevet udviklet for nyligt, og som der er mest hype omkring. Feature attributions beskriver for hver variabel, hvor vigtig den er for modellens resultat. Det kan både være globalt, altså hvilke variabler er grundsatslig vigtige, eller lokalt, altså hvilke variabler var mest afgørende for en bestemt beslutning.

Når man kigger i junglen af maskinlæringsmodeller så findes der en gruppe af såkaldt lineære modeller: lineær regression, logistisk regression, Generalized Linear Models (GLMs) og Generalized Additive Models (GAMs). På grund af deres struktur er det muligt at få både en global eller lokal forklaring i form af feature attributions (læs mere ved at klikke på links). Der har været en del udvikling i den seneste tid af algoritmer til at lave lineære modeller, der har lige så god eller bedre performance end mere komplekse black-box-modeller, f.eks. GA2M [30] eller SLIM [31].

Der findes også metoder, der kan generere feature attributions for en ikke-lineær black-box-model, f.eks. SHAP [32] , som er baseret på såkaldte shapley values [33], LIME [34], DeepLIFT [35], Grad-CAM [36] eller LRP [37]. De sidstnævnte (DeepLIFT, Grad-CAM og LRP) er specielt lavet til dybe neurale netværk, og her er idéen blandt andet, at outputtet af netværket bliver ført tilbage til inputtet igennem netværket for at vise, hvilke dele af inputtet der var mest betydningsfulde. De fleste af disse metoder virker på alle typer af data, og vi vil gerne beskrive i lidt flere detaljer, hvordan feature attributions kan se ud på billede- eller tekstdata.

Visualisering af feature attribution forklaringer på billede-, tekst- og tabeldata. — Abstrakt visualisering af feature attribution-forklaringer på billede-, tekst- og tabeldata (sidste række). På billede- og tekstdata er det henholdsvis enkelte pixels eller ord, der bliver markeret. På tabeldata får hver variabel som regel en betydning, som kan være positiv (orange) eller negativ (turkis).

Billeder

Features i billeder er de enkelte pixels i billedet eller dele af billedet. Så når vi bruger feature attributions på billeddata, handler det om at markere de pixels eller områder i billedet, som var mest betydningsfulde for modellens resultat.

Tekst

Features i tekst er de enkelte ord eller sætninger i teksten. Så når vi bruger feature attributions på tekstdata, handler det om at markere de ord, som var mest betydningsfulde for modellens resultat.

Visualiseringer

Visualiseringer er en god måde at repræsentere komplekse sammenhænge på, og er den foretrukne måde for data scientists, statistikere og analytikere til at forstå data og modeller. Desuden er smarte visualiseringer hjertet af business intelligence-løsninger. Visualiseringer er derfor også en god måde at forklare data eller modeller på.

Her vil vi kort beskrive forskellige måder at bruge visualiseringer som forklaring på. Vær opmærksom på at nogle af de tidligere præsenterede typer af forklaringer (regler og feature attributions) også skal visualiseres, men der findes mange forskellige måder at gøre det på, hvorimod de visualiseringer, vi beskriver her, hænger tæt sammen med metoden.

Datavisualiseringer

Ligesom med andre typer forklaringer, så kan man både forklare data og modeller. Visualiseringer bliver som regel brugt til at forstå data, inden man begynder at designe og træne en model. Det er forholdsvis nemt at visualisere enkelte eksempler på tekst- og billeddata, da deres form allerede er en visualisering i sig selv. Der er dog udfordringer med at visualisere et helt datasæt. Her bruger man tit en form af ‘manifold visualisering’, f.eks. t-SNE.

For tabeldata kræves det først, at man reducerer dimensionen af de enkelte datapunkter til 2 eller 3 variabler, da data så kan visualiseres i et 2D eller 3D plot. Principal component analysis (PCA) er en kendt metode til reducering af dimensioner. Yellowbrick er et godt Python-bibliotek, der samler forskellige visualiserings- og dimensionsreducerings-metoder.

Partial dependence plot (PDP)

Partial Dependence Plots (PDPs) er en måde til at forklare en model. Selve plotsene viser, hvordan værdien af en enkelt variabel, eller værdierne af et par af variablerne, ændrer modellens resultat. Det er Jerome H. Friedman, der først præsenterede PDP i 2001 [38].

Goldstein et al. videreudviklede metoden til Individual Conditional Expectation (ICE) plots, hvor man også kan se effekten for et eller flere udvalgte datapunkter, udover at kun se den samlede effekt [39]. ICE plots kan dog kun laves for en enkelt variabel ad gangen.

Neuron-visualiseringer

Dybe neurale netværk består af hundrede eller tusindvis af neuroner, der er forbundet til hinanden og organiseret i en grafstruktur med forskellige lag. Hvert lag eller gruppe af lag transformerer data fra selve inputtet til outputtet af modellen igennem mere og mere abstrakte repræsentationer, jo dybere (tættere på output) man kommer ned i netværket.

Der findes forskellige metoder til at visualisere disse abstrakte repræsentationer, som modellen har lært [40]. Metoderne er begrænset på billed- eller tekstdata, da visualiseringer som billed eller tekst intuitivt kan forstås. Med tabeldata er det svært at forstå abstrakte repræsentationer, da de ikke direkte relaterer tilbage til input-domænet eller specifikke attributter.

Det er for eksempel brugbart til at visualisere, hvordan netværket “ser” et bestemt input i de forskellige lag [40, 41, 42], eller til at visualisere hvad forskellige neuroner eller lag i netværket detekterer eller ekstraherer generelt fra dataene [43, 44, 45, 46].

Koncepter

Koncepter er det, der kommer tættest på, hvordan vi som mennesker forstår verden. Når vi ser et objekt med hjul, så tænker vi nok, at man kan køre med det, selvom vi måske ikke kender selve objektet. Når vi ser et dyr med vinger, så vil vi nok genkende det som en fugl, også hvis vi ikke har set den type fugl før. Ved at interagere med vores omverden og ved at læse bøger, se film, gå i skole osv. lærer vi koncepter, der kan hjælpe også med at forstå nye ting.

Nuværende modeller brugt i maskinlæring, der bliver trænet med data, lærer ikke koncepter eller kausale sammenhænge, men en korrelation mellem input- og output-variabler. Der er derfor en aktiv forskning, der handler om, hvordan vi kan skabe modeller, der faktisk har lært koncepter, f.eks. causal inference [47] (se også DoWhy eller CausalNex Python-biblioteker) eller kognitive modeller [48]. Men forskningen er bare påbegyndt og er ikke moden nok til at blive brugt i industrien, selvom der er nogle lovende resultater inden for både NLP [49] og computer vision (Neuro-Symbolic Concept Learner).

Når vi så snakker om koncepter her, så handler det stadig om modeller, der lærer en korrelation, men som ved hjælp af værktøjer kan generere en forklaring, der kommer tæt på koncept-tanken og adskiller sig fra de øvrige typer af forklaringer, vi har beskrevet i dette indlæg.

En måde at få konceptforklaringer på er at annotere datasættet, så hvert datapunkt også har en konceptlignende forklaring givet af en domæneekspert, og så træne en model der både genererer et output og en forklaring [50].

En anden måde er ved at definere koncepter gennem eksempel-datapunkter og undersøge sensitiviteten overfor disse datapunkter for hver af modellens output i et klassificerings-problem [51]. For eksempel kan man undersøge om en model til at klassificere billeder er sensitiv overfor konceptet “striber”, når den klassificerer en zebra. Ghorbani et al. automatiserer denne tilgang, så koncepterne bliver genereret automatisk for et givent billede [52].

Det er også muligt at træne en model, så den kan svare på spørgsmål i forhold til et billede, såkaldt visual question answering [53, 54, 55]. Her handler det om, at modellen forstår de koncepter, der er til stede i spørgsmålene og billedet.

Global eller lokal / Post-hoc eller iboende

I ovenstående afsnit har vi set, at forklaringsmetoder kan grupperes afhængigt af, hvilken type forklaring de genererer. En anden måde at adskille metoderne, der forklarer modeller på, er baseret på deres virkningsområde. Typisk adskiller man mellem global og lokal [5, 56, 57].

Global forklarlighed gør det muligt at forstå hele logikken bag, hvordan en model virker og at følge dens ræsonnement for alle mulige prædiktioner [5]. Global forklarlighed kan videre separeres i transparens [10], som man også kalder iboende, global forklarlighed, og post-hoc global forklarlighed [56]. Hvor transparens er en direkte egenskab, der er bygget ind i modellen, er post-hoc global forklarlighed som regel udført ved at bruge en metode, der forklarer hvilke mønstre, en model har lært [56].

Lokal forklarlighed giver yderligere informationer og forklaringer om en enkelt models prædiktion. Ligesom ved global forklarlighed kan man igen adskille imellem iboende lokal forklarlighed og post-hoc lokal forklarlighed [10, 56].

Global forklarlighed

Datadrevne modeller, især dem baseret på maskinlæring og deep learning, er tit beskrevet som ugennemskuelige “black boxes”, hvor det selv for eksperter er svært at forstå modellens indre logikker. Global forklarlighed kan forstås som en modsætning til en black box. Global forklarlighed er evnet til at forklare hele modellens logik og at følge dens beslutning hele vejen igennem fra input-data til modellens prædiktion [5]. Det kan opnås ved at bygge en model, der har iboende global forklarlighed (transparent) eller ved at bruge en post-hoc model til at forklare en black box-models logik.

Transparens

Transparens er defineret som evnen til direkte at forstå hele modellen. Algoritmer eller metoder til at generere en transparent model, kan man gruppere under ”transparent design” [5].

Visualisering af transparent design processen. — Ved “transparent design” bliver der lavet en transparent model direkte ud fra træningsdata, der som regel både kan generere globale og lokale forklaringer.

Men hvad er transparens egentlig? Z. C. Lipton beskriver forskellige typer af transparens: simulatibility (simulerbarhed), decomposability (nedbrydelighed) og algoritmisk transparens [10]:

Simulerbarhed: Egenskab så et menneske selv kan beregne modellens resultater, givet et input og modellens parameter.
Nedbrydelighed: Mulighed for at forklare hver komponent af modellen, ligesom parameter og beregninger.
Algoritmisk transparens: Evne til at forklare træningsprocessen, altså hvordan modellen blev bygget og kalibreret. Dette indebærer, at man kan beskrive den objektive funktion, man optimerer modellens parameter efter. Samtidig skal der være et teoretisk og matematisk bevis for, at kalibreringsprocessen kan konvergere til et lokalt eller globalt optimum, sådan at man kan finde den bedste model for et givent træningsdatasæt.

Følger man Liptons definition af transparens, er lineære regressionsmodeller, beslutningstræer og regel-baserede modeller alle sammen transparente, da man ”nemt” kan forstå og beregne de underliggende mekanismer. Men disse modeller kan hurtigt blive store (antal af parametre, dybden og bredden af træet, antal af regler). Så hvornår er de små nok til stadig at gælde som global forklarlige? En mulighed for at undgå problemet er at tilføje begrænsninger i træningsprocessen, der minimerer størrelsen og kompleksiteten af modellen. Den strategi kan bruges både til ”enkle” modeller, som lineære regressioner og beslutningstræer, men også til black box-modeller som neurale netværk [58].

Transparens kan også defineres som en grad af transparens fra black box til fuld transparens, hvor nogle dele af modellen er transparente og nogen andre er uigennemskuelige.

Post-hoc global forklarlighed

Post-hoc global forklarlighed opnås ved at anvende metoder på black box-modeller for at gøre dem global forklarlige. For eksempel kan man vise, hvor meget forskellige input-variabler og deres værdier har indflydelse på modellens prædiktion (PDP [38], ICE [39], permutation test).

Black box inspektionsmetoder tager en black box-model og genererer en global forklaring, typisk i form af en visualisering og dermed en åbning af box’en. Her vises en såkaldt ICE plot som forklaring.

For dybe neurale netværk (DNN) ligesom convolutional neural networks (CNN) eller recurrent neural networks (RNN) (tit brugt sammen med billed- eller tekstdata), findes der særlige post-hoc metoder. Disse metoder prøver at ekstrahere, hvilke repræsentationer et dyb neuralt netværk har lært af data [40, 43, 44, 45, 46]. Repræsentationer er en implicit abstraktion fra den ”rå” data (billede eller tekst), lært af de første lag af et netværk, for eksempel lag der genkender kanter i et billede [46]. Desuden findes der metoder til at undersøge, om modellen har lært bestemte koncepter [51].

Disse typer af post-hoc globale forklaringsmetoder, der kan bruges til at få indsigt i black box-modellen ved at belyse dele af dens logik, kalder Guidotti et al. ”black box-inspektions”-metoder [5]. Det er dog ikke den eneste type af metoder til post-hoc global forklarlighed. Der findes også de såkaldte ”surrogat-model”-metoder.

Surrogat-modeller

Surrogat-model-metoder, eller model-forklaringsmetoder (model explanation) [5], bygger en model til at erstatte black box-modellen, hvor black box-modellen er brugt til prædiktioner og surrogat-modellen til at generere forklaringer. Sidstnævnte model skal virke på samme måde som den originale black box-model, altså generere prædiktioner så tæt som muligt på black box-modellens prædiktioner. Hvis det ikke er tilfældet, så forklarer denne model ikke black box-modellen, men kun sig selv. Selvfølgelig vil surrogat-modellen altid være forskellig, dvs. have en ringere performance en black box-modellen, da man ellers kunne erstatte black box-modellen fuldstændig med surrogat-modellen.

Surrogat-modeller tager som regel form af de klassiske transparente modeller, ligesom lineære modeller [59], beslutningstræer [60, 61], eller regel-baserede modeller [62], men kan også være et simpel neuralt netværk [63].

Visualisering af en surrogate træningsproces. — En surrogat-model bliver trænet ud fra forudsigelser fra en black box-model på udvalgte data. Denne model er iboende forklarlig og kan som regel både generere globale og lokale forklaringer.

Lokal forklarlighed

I de fleste tilfælde vil det være svært at bruge en transparent model til at opnå global forklarlighed, men det er tit nok til at forklare en bestemt prædiktion. Man kan faktisk argumentere for, at der skabes en mental repræsentation af modellen, når man interagerer med en model længe nok og samtidig får lokale forklaringer. Jo mere den mentale repræsentation afspejler den faktiske model, jo mere global forklarlig er modellen for brugeren.

Forklaringer, der er genereret af lokal forklarlige metoder, kan være tekst, visualiseringer, eksempler i træningsdata eller feature attributions [10]. Ligesom med global forklarlighed kan man adskille mellem iboende lokal forklarlighed og post-hoc lokal forklarlighed [56].

Iboende lokal forklarlighed

Modeller, der har iboende global forklarlighed, er som regel også lokal forklarlige, ligesom lineære modeller, beslutningstræer eller regel-basered modeller. Der findes dog også modeller, der opnår lokal forklarlighed ved at tilføje dele til en model, der genererer en forklaring [15, 52, 64], hvor forklaringer er en del af træningsdata [50], eller hvor selve konceptet er, at prædikationer er baseret på eksempler (k-NN). I alle tilfælde er modellen bygget, så den genererer en forklaring sammen med en prædiktion.

Når vi kigger på dybe neurale netværk, så kan man for eksempel tilføje særlige lag, der genererer (og lærer) forklaringer [15, 16, 52, 64, 65, 66]. Det kan være i form af eksempler eller prototyper [15, 16], koncepter [52], tekst [65] eller feature attribution [64, 66]. Og så findes der også en metode, der kombinerer neurale netværk, der hver især genkender dele af et billede til et beslutningstræ og dermed opnår forklarlighed (Neural-Backed Decision Tree) [67].

Post-hoc lokal forklarlighed

Metoder til post-hoc lokal forklarlighed gør modeller forklarlige gennem en separat proces efter prædiktionen. Det ligner måden, den menneskelige hjerne virker på, hvor der er forskellige processer til at træffe en beslutning og at forklare den.

Visualisering af resultat forklaring i form af feature attribution for en black-box model til billeder. — Resultat-forklaring er en ekstra metode, der bliver anvendt sammen med en black box-model til at forklare et enkelt resultat. Her vises en lokal forklaring i form af feature attribution for en black box-model til billeder.

Metoder til post-hoc lokal forklarlighed, også kaldt ”resultat-forklaring” (outcome explanation) [5], kan fungere på forskellige måder. Det kan for eksempel være metoder, der arbejder primært med et eksempel-datasæt og modellens output til at finde lignende eller betydningsfulde eksempler [14, 18], eller metoder der finder counterfactuals [22, 23, 24, 25]. Andre metoder udnytter modellens struktur, f.eks. at det er et neuralt netværk [35, 36, 37], bruger idéen om shapley values [32, 68, 69], eller bygger en transparent model for et lokalt område [29, 34].

Fordelen ved post-hoc lokal forklarlighed er, at man ikke behøver at pille ved selve modellen, og at mange metoder fungerer med forskellige typer af black box-modeller. Tit har de dog brug for adgang til modelstrukturen for at udnytte den til at generere forklaringer hurtigere og mere nøjagtigt.

Modeltype

Modeller, der er transparente eller har en iboende lokal forklarlighed, har en bestemt type. Det kan være lineære modeller, regel-baserede modeller, beslutningstræer, versioner af k-NN eller neurale netværk [15, 16, 52, 58, 64, 65, 66] eller kombinationer af det [67].

Post-hoc metoder derimod virker i forbindelse med en black box-model til at gøre den forklarlig. Typen af model kan have en betydning for, hvilken post-hoc metode man kan bruge. De typer af black box-modeller, man typisk ser, er dybe neural netværk, enten med convolutional layers eller recurrent layers, ensemble-modeller bestående af beslutningstræer (Random Forest, Gradient Boosting [70, 71], eller ensemblemodeller sat sammen af forskellige andre typer af modeller.

Der findes post-hoc metoder, der er model-agnostiske, dvs. de virker med alle typer black box-modeller, da de bare skal have mulighed for at få modellens resultater for et givent input [14, 24, 25, 29, 32, 39, 59]. Andre metoder er lavet specifikt til dybe neurale netværk [72, 73] og kræver, at man har adgang til selve netværket, da de udnytter netværksstrukturen [23, 36, 51, 63], bruger en lignende proces til at generere forklaringer, som man bruger til at træne af netværket [35, 37], eller viser hvad netværket har lært [40, 43, 44, 45, 46].

Nogle metoder eksisterer kun til træ-baserede modeller eller er en variant af en model-agnostisk metode optimeret til træer [74], og andre kræver, at man har adgang til en gradient, man også bruger i træningsprocessen [18].

Taksonomitræ

Efter vi nu har været inde over datatyper, typer af forklaringer og typer af XAI-metoder, samt hvordan nogle modeller er lavet til en bestemt type black box-modeller, vil vi nu give et overblik over forskellige XAI-metoder i form af et taksonomitræ.

XAI methods taxonomi — Træet viser en taksonomi af XAI-metoder, der kan separareres efter, om de forklarer data eller en model. Metoder, der forklarer modeller, kan være **lokal** eller **global**, og **iboende** eller **post-hoc**. Desuden kan alle metoder grupperes efter den type forklaring, de genererer. Metoderne er markeret efter, om de er model-agnostiske eller specifikt lavet til et neuralt netværk, og på hvilke typer af data de virker (tabel-, billed- eller tekstdata). Nogle metoder optræder flere steder i træet.

Træet viser ikke alle metoder, der findes, men metoderne er valgt, så de, så vidt muligt, afdækker alle typer af forklaringer, data og black box-modeller. Hvis der er flere metoder i en kategori, så har vi udvalgt den mest udbredte, bedst dokumenterede eller den metode, hvor der findes en god open source-implementering. For hver metode indikerer farverige kasser, hvilken type data de er egnet til, og farven af metoden viser, om de er til en bestemt type black box-model.

Her kan du læse Christoph Molnars e-bog for hver metode.

Tak for fordi du læste med!

Bibliografi

[1] Peter Jackson, Introduction to Expert Systems, Harlow: Addison-Wesley Longman, 1990.

[2] A. Kofod-Petersen, J. Cassens og A. Aamodt, Explanatory Capabilities in the CREEK Knowledge-Intensive Case-Based Reasoner, Proceedings of SCAI 2008 , pp. 28–35, 2008.

[3] A. Aamodt og E. Plaza, Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches, AI Communications 7(1), pp. 39–59, 1994.

[4] S. T. Mueller, R. R. Hoffman, W. Clancey et al., Explanation in Artificial Intelligence Systems: An Historical Perspective, Explanation in Human-AI Systems: A Literature Meta-Review, Synopsis of Key Ideas and Publications, and Bibliography for Explainable AI, DARPA XAI Program, pp. 43–70, 2019.

[5] R. Guidotti, A. Monreale, S Ruggieri et al., A Survey Of Methods For Explaining Black Box Models, arXiv:1802.01933v3 [cs.CY], 2018.

[6] B. Mittelstadt, C. Russell og S. Wachter, Explaining Explanations in AI, arXiv:1811.01439v1 [cs.AI], 2018.

[7] G. Ras, M. van Gerven og P. Haselager, Explanation Methods in Deep Learning: Users, Values, Concerns and Challenges, arXiv:1803.07517v2 [cs.AI], 2018.

[8] A. Adadi og M. Berrada, Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI), IEEE Access 6, pp. 52138–52160, 2018.

[9] M. Du, N. Liu og X. Hu, Techniques for Interpretable Machine Learning, arXiv:1808.00033v3 [cs.LG], 2019.

[10] Z. C. Lipton, The Mythos of Model Interpretability, arXiv:1606.03490v3 [cs.LG], 2017.

[11] S. Chakraborty, R. Tomsett, R. Raghavendra et al., Interpretability of deep learning models: A survey of results, IEEE 2017 SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI, pp. 1–6, 2017.

[12] G. Vilone og L. Longo, Explainable Artificial Intelligence: a Systematic Review, arXiv:2006.00093 [cs.AI], 2020.

[13] B. Kim, R. Khanna og O. O. Koyejo, Examples are not enough, learn to criticize! Criticism for Interpretability, NIPS 2016, pp. 2280–2288, 2016.

[14] K. S. Gurumoorthy, A. Dhurandhar, G. Cecchi et al., Efficient Data Representation by Selecting Prototypes with Importance Weights, arXiv:1707.01212 [stat.ML], 2019.

[15] C. Chen, O. Li, C. Tao et al., This Looks Like That: Deep Learning for Interpretable Image Recognition, arXiv:1806.10574v5 [cs.LG], 28 december 2019.

[16] S. O. Arik og T. Pfister, ProtoAttend: Attention-Based Prototypical Learning, arXiv:1902.06292 [cs.LG], 2019.

[17] C. J. Cai, J. Jongejan og J. Holbrook, The Effects of Example-Based Explanations in a Machine Learning Interface, IUI ’19, pp. 258–262, 2019.

[18] P. W. Koh og P. Liang, Understanding Black-box Predictions via Influence Functions, arXiv:1703.04730 [stat.ML], 2017.

[19] N. Papernot og P. McDaniel, Deep k-Nearest Neighbors: Towards Confident, Interpretable and Robust Deep Learning, arXiv:1803.04765 [cs.LG], 2018.

[20] S. Wachter, B. Mittelstadt og C. Russell, Counterfactual Explanations without Opening the Black Box: Automated Decisions and the GDPR, arXiv:1711.00399 [cs.AI], 2017.

[21] Tim Miller, Explanation in Artificial Intelligence: Insights from the Social Sciences, arXiv:1706.07269 [cs.AI], 2017.

[22] R. K. Mothilal, A. Sharma og C. Tan, Explaining machine learning classifiers through diverse counterfactual explanations, FAT* 2020, pp. 607–617, 2020.

[23] Y. Goyal, Z. Wu, J. Ernst et al., Counterfactual Visual Explanations, Proceedings of the 36th ICML, pp. 2376–2384, 2019.

[24] S. Sharma, J. Henderson og J. Ghosh, CERTIFAI: Counterfactual Explanations for Robustness, Transparency, Interpretability, and Fairness of Artificial Intelligence models, arXiv:1905.07857 [cs.LG], 2019.

[25] A. Dhurandhar, P.-Y. Chen, R. Luss et al., Explanations based on the Missing: Towards Contrastive Explanations with Pertinent Negatives, NIPS 2018, pp. 592–603, 2018.

[26] C. Chen og C. Rudin, An Optimization Approach to Learning Falling Rule Lists, arXiv:1710.02572 [cs.LG], 2017.

[27] H. Lakkaraju, S. H. Bach og J. Leskovec, Interpretable Decision Sets: A Joint Framework for Description and Prediction, KDD’16, pp. 1675–1684, 2016.

[28] J. H. Friedman og B. E. Popescu, Predictive learning via rule ensembles, Ann. Appl. Stat. 2 (3), pp. 916–954, 2008.

[29] M. T. Ribeiro, S. Singh og C. Guestrin, Anchors: High-Precision Model-Agnostic Explanations, AAAI 2018, 2018.

[30] Y. Lou, R. Caruana, J. Gehrke at al., Accurate intelligible models with pairwise interactions, KDD’13, pp. 623–631, 2013.

[31] B. Ustun og C. Rudin, Supersparse Linear Integer Models for Optimized Medical Scoring Systems, arXiv:1502.04269 [stat.ML], 2015.

[32] S. M. Lundberg og S.-I. Lee, A Unified Approach to Interpreting Model Predictions, NIPS 2018, pp. 4765–4774, 2017.

[33] M. Sundararajan og A. Najmi, The Many Shapley Values for Model Explanation, ICML 2020, 2020.

[34] M. T. Ribeiro, S. Singh og C. Guestrin, “Why should i trust you?”: Explaining the predictions of any classifier, KDD’16, pp. 1135–1144, 2016.

[35] A. Shrikumar, P. Greenside og A. Kundaje, Learning Important Features Through Propagating Activation Differences, arXiv:1704.02685 [cs.CV], 2017.

[36] R. R. Selvaraju, M. Cogswell, A. Das et al., Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, ICCV’17, pp. 618–626, 2017.

[37] S. Bach, A. Binder, G. Montavon et al., On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation, PLOS ONE 10(7): e0130140, 2015.

[38] Jerome H. Friedman, Greedy Function Approximation: A Gradient Boosting Machine, The Annals of Statistics 29(5), pp. 1189–1232, 2001.

[39] A. Goldstein, A. Kapelner, J. Bleich et al., Peeking Inside the Black Box: Visualizing Statistical Learning With Plots of Individual Conditional Expectation, Journal of Computational and Graphical Statistics, pp. 44–65, 2015.

[40] C. Olah, A. Satyanarayan, I. Johnson et al., The Building Blocks of Interpretability, Distill, 2018.

[41] H. Strobelt, S. Gehrmann, H. Pfister et al., LSTMVis: A Tool for Visual Analysis of Hidden State Dynamics in Recurrent Neural Networks, arXiv:1606.07461 [cs.CL], 2016.

[42] L. Arras, F. Horn, G. Montavon et al., “What is Relevant in a Text Document?”: An Interpretable Machine Learning Approach, arXiv:1612.07843 [cs.CL], 2016.

[43] C. Olah, A. Mordvintsev og L. Schubert, Feature Visualization, Distill, 2017.

[44] A. Nguyen, A. Dosovitskiy, J. Yosinski et al., Synthesizing the preferred inputs for neurons in neural networks via deep generator networks, NIPS 2016, pp. 3387–3395, 2016.

[45] A. Karpathy, J. Johnson og L. Fei-Fei, Visualizing and Understanding Recurrent Networks, arXiv:1506.02078 [cs.LG], 2015.

[46] M. D. Zeiler og R. Fergus, Visualizing and Understanding Convolutional Networks, arXiv:1311.2901v3 [cs.CV], 2013.

[47] Bernhard Schölkopf, »Causality for Machine Learning, arXiv:1911.10500 [cs.LG], 2019.

[48] Gary Marcus, The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence, arXiv:2002.06177 [cs.AI], 2020.

[49] P. Clark, O. Etzioni, D. Khashabi et al., From ‘F’ to ‘A’ on the N.Y. Regents Science Exams: An Overview of the Aristo Project, arXiv:1909.01958 [cs.CL], 2019.

[50] M. Hind, D. Wei, M. Campbell et al., TED: Teaching AI to Explain its Decisions, AIES’19, pp. 123–129, 2019.

[51] B. Kim, M. Wattenberg, J. Gilmer et al., Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV), arXiv:1711.11279 [stat.ML], 2017.

[52] A. Ghorbani, J. Wexler, J. Y. Zou et al., Towards Automatic Concept-based Explanations,« NIPS 2019, pp. 9277–9286, 2019.

[53] Y. Goyal, T. Khot, A. Agrawal et al., Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering, International Journal of Computer Vision 127, pp. 398–414, 2019.

[54] R. Hu, J. Andreas, M. Rohrbach et al., Learning to Reason: End-To-End Module Networks for Visual Question Answering, ICCV 2017, pp. 804–813, 2017.

[55] J. Mao, C. Gan, P. Kohli et al., The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences from Natural Supervision, arXiv:1904.12584 [cs.CV], 2019.

[56] M. Nu, N. Liu og X. Hu, Techniques for Interpretable Machine Learning, arXiv:1808.00033v2 [cs.LG], 2018.

[57] Adrian Weller, Challenges for Transparency, arXiv:1708.01870v1 [cs.CY], 2017.

[58] Q. Zhang, Y. N. Wu, S.-C. Zhu, Interpretable CNNs, arXiv:1901.02413v1 [cs.LG], 2019.

[59] S. Tan, R. Caruana, G. Hooker et al., Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation, AIES’18, pp. 303–310, 2018.

[60] C. Yang, A. Rangarajan og S. Ranka, Global Model Interpretation via Recursive Partitioning, arXiv:1802.04253 [cs.LG], 2018.

[61] O. Bastani, C. Kim og H. Bastani, Interpretability via Model Extraction, arXiv:1706.09773 [cs.LG], 2017.

[62] W. J. Murdoch og A. Szlam, Automatic Rule Extraction from Long Short Term Memory Networks, arXiv:1702.02540 [cs.CL], 2017.

[63] A. Dhurandhar, K. Shanmugam, R. Luss et al., Improving Simple Models with Confidence Profiles, NIPS 2018, pp. 10296–10306, 2018.

[64] E. Choi, M. T. Bahadori, J. A. Kulas et al., RETAIN: An Interpretable Predictive Model for Healthcare using Reverse Time Attention Mechanism, arXiv:1608.05745v4 [cs.LG], 2017.

[65] K. Xu, J. Ba, R. Kiros et al., Show, Attend and Tell: Neural Image Caption Genereation with Visual Attention, arXiv:1502.03044v3 [cs.LG], 2016.

[66] Amirhossein Tavanaei, Embedded Encoder-Decoder in Convolutional Networks Towards Explainable AI, arXiv:2007.06712 [cs.CV], 2020.

[67] A. Wan, L. Dunlap, D. Ho et al., NBDT: Neural-Backed Decision Tree, arXiv:2004.00221 [cs.CV], 2020.

[68] K. Aas, M. Jullum og A. Løland, Explaining individual predictions when features are dependent: More accurate approximations to Shapley values, arXiv:1903.10464 [stat.ML], 2019.

[69] M. Sundararajan og A. Najmi, The many Shapley values for model explanation, arXiv:1908.08474 [cs.AI], 2019.

[70] T. Chen og C. Guestrin, XGBoost: A Scalable Tree Boosting System, KDD’16, pp. 785–794, 2016.

[71] G. Ke, Q. Meng, T. Finley et al., LightGBM: A Highly Efficient Gradient Boosting Decision Tree, NIPS 2017, pp. 3146–3154, 2017.

[72] G. Montavon, W. Samek og K.-R. Müller, Methods for interpreting and understanding deep neural networks, Digital Signal Processing 73, pp. 1–15, 2018.

[73] W. Samek, G. Montavon, A. Vedaldi, L. K. Hansen og K.-R. Müller (Eds.), Explainable AI: Interpreting, Explaining and Visualizing Deep Learning, Springer, 2019.

[74] S. M. Lundberg, G. Erion, H. Chen et al., From local explanations to global understanding with explainable AI for trees, Nature Machine Intelligence 2, pp. 56–67, 2020.