🧁 Forsikring og muffens

Torhhu
Fremtind
Published in
12 min readFeb 28, 2023

4 ting Ä tenkje pÄ nÄr du vil laga ein maskinlÊringsmodell for Ä avgjere forsikringssvindel

SĂ„, du er ein data scientist og nokon har gitt deg i oppdrag Ă„ laga ein maskinlĂŠringsmodell for Ă„ avgjere om ei skadesak er forsikringssvindel?

FĂžrst, forsikring, kva er eigentleg det?

Forsikring er, heilt fundamentalt, eit spleiselag, der “alle” bidrar med eit (lite) innskot av pengar, slik at det samla er nok pengar til Ă„ hjelpe dei som er uheldige og kjem ut for ei ulukke, fĂ„r ein skade pĂ„ seg sjĂžlv eller noko ein eig, eller pĂ„ anna vis blir utsett for ei uventa hending der pengar kan brukast for Ă„ erstatte det som er tapt.

Forsikring er altsÄ ei teneste, eller produkt, som fungerar fordi dei aller fleste hus brenn ikkje ned, dei aller fleste krÊsjar ikkje bilen sin, fÄr innbrot i huset, blir rana pÄ reise, eller kjem ut for ulukker. Dei aller fleste fÄr rett og slett ikkje bruk for forsikringa, men har tryggleiken av at dei er dekka dersom dei skulle vere uheldige.

Kva er sÄ forsikringssvindel?

Forsikringssvindel, forsikringssvik eller forsikringsbedrageri er alle ord som blir nytta om det same. Det er nÄr ein kunde i eit forsikringsselskap melder ein skade der opplysningane som er gitt ikkje er korrekte eller at skaden pÄ eit vis er arrangert, med tanke pÄ Ä fÄ utbetalt ein forsikringssum til seg sjÞlv eller andre (Lovdata). Det kan vere alt frÄ Ä lyge om kva klesmerke det var pÄ buksa som lÄg i bagasjen som forsvann pÄ reise , til Ä arrangere ei fiktiv bilulukke. Kort sagt, kunden er uÊrleg og forsÞkjer Ä fÄ utbetalt pengar hen ikkje har krav pÄ.

Ein veit ikkje heilt omfanget av forsikringssvindel eigentleg er. Samla sett blir det avdekka at krav pÄ i underkant av 400 millionar i Äret er forsikringssvindel (FNO). Men dei aller fleste trur at det er store mÞrketal, og det totale omfanget har vore estimert til fleire milliardar kroner i Äret.

I og med at forsikringsselskap er som dei aller fleste andre selskap ynskjer dei mest mogleg profitt. Auka utbetaling pÄ grunn av svik er eit tap som selskapa vil dekke inn. MÄten det blir gjort pÄ er som regel at alle kundar mÄ betala litt meir for sine forsikringar. Det er altsÄ dei aller fleste, som ikkje har gjort noko gale, som endar opp med rekninga for forsikringssvindel utfÞrt av eit lite mindretal.

Det er difor eit gode for alle om ein klarar Ă„ avdekkje og hindre meir forsikringssvindel.

SÄ her er fire ting Ä tenkje pÄ dersom du vil laga ein maskinlÊringsmodell for Ä avgjere forsikringssvindel.

1 — Du vil ikkje laga ein maskinlĂŠringsmodell for Ă„ avgjere forsikringssvindel

Det Ä avgjere om ein forsikringsskadesak er svik er komplisert, tidkrevjande og vanskeleg. FrÄ ein skadesak er meldt til forsikringsselskapet kan det ta relativt lang tid fÞr den endar opp som avdekka svik. Dei aller fleste sakene som ender opp som svik har vore innom ei utreiingsavdeling der saka har blitt etterforska, bevis samla inn og vurdert. Som regel har det vore gjennomfÞrt samtalar og avhÞyr, pÄstandar har blitt sjekka og ein eventuell konklusjon om svik er godt grunngjeven.

Oftast veit du ikkje kva opplysningar som fÞrer fram til konklusjonen om svik, eller du fÄr ikkje den avgjerande brikka i puslespelet fÞr etter tid og innhenting av fleire opplysningar. Det er difor ein utopi Ä tru at du skal klara Ä laga ein maskinlÊringsmodell som kan avdekkje svik pÄ ein vilkÄrleg skadesak.

Kva gjere du dÄ? Du tenkjer gjennom prosessen og prÞver Ä bryta den ned til mindre steg og ser om det er delar av den som ei maskin kan lÊra seg. OppgÄver som eignar seg godt for maskinlÊringsmodellar er oppgÄver med klÄre utfall som eit menneske innan kort tid kan avgjere. FÞr ei sak blir sendt til utreiing er det ein sakshandsamar som har kombinert det hen veit om kunden og det kunden har sagt om skaden og tenkt «Her ser alt fint ut», eller «Hm, her er det eit eller anna muffens som vi bÞr sjÄ nÊrare pÄ». Det er ikkje alltid ein spesifikk ting som fÞrer til konklusjonen, men eit samla bilete av mange opplysningar som basert pÄ fagkunnskap (og magekjensle) gjev ei sannsynsovervekt for at denne saka her bÞr sjekkast litt meir fÞr den blir avgjort. Denne prosessen med Ä setje saman informasjon om kunden og skaden og sÄ raskt vurdera om det er noko som er avvikande og grunn til Ä sjÄ nÊrare pÄ er noko ei maskin kan trenast opp til.

SĂ„, du vil ikkje laga ein maskinlĂŠringsmodell for Ă„ avdekkje og bevise svik (sjĂ„ og punkt 2), men du kan laga ein maskinlĂŠringsmodell som forsĂžkjer Ă„ tilnĂŠrma seg sakshandsamarane sin fagkunnskap og sei noko om muffens eller ei 🧁.

2 —Kartlegg dei etiske fallgruvene i jakta pĂ„ muffens

Om du skal la ei maskin dele noko inn i ulike grupper basert pĂ„ ei eller anna tolking av data er det mange ulike problemstillingar ein mĂžter pĂ„ og mĂ„ ta stilling til. Mange av problemstillingane er reint praktiske (korleis fĂ„r eg tak i data?, kva slags maskin treng eg for Ă„ trene modellen?) eller av meir akademisk art (kva maskinlĂŠringsmodell er den optimale for akkurat denne problemstillinga?) og er kanskje dei problema det er lettast Ă„ tenkje pĂ„. Men minst like viktig, og spesielt nĂ„r noko er menneske, er problemstillingar rundt etikk. Det er fleire lovmessige krav som avgrensar kva ein kan gjere. Eit minstekrav for etisk praksis er Ă„ fĂžlgje likestillings- og diskrimineringsloven (§6–9). FrĂ„ §6 gĂ„r det klart fram at:

«Diskriminering pÄ grunn av kjÞnn, graviditet, permisjon ved fÞdsel eller adopsjon, omsorgsoppgaver, etnisitet, religion, livssyn, funksjonsnedsettelse, seksuell orientering, kjÞnnsidentitet, kjÞnnsuttrykk, alder eller kombinasjoner av disse grunnlagene er forbudt.».

Og sjÞlv om §9 opnar for lovleg forskjellsbehandling dersom forskjellsbehandlinga

«

a. har et saklig formÄl

b. er nÞdvendig for Ä oppnÄ formÄlet og

c. ikke er uforholdsmessig inngripende overfor den eller de som forskjellsbehandles.

» betyr det ikkje at du skal gjere det.

Det er og viktig Ä vÊre merksam pÄ GDPR, som regulerer personvern og beskyttelse av personopplysningar. Forsikringsbransjen mÄ vera spesielt forsiktig med Ä behandle sensitive personopplysningar pÄ ein lovleg mÄte.

Finanstilsynet stiller og krav til forsikringsbransjen for Ä sikre at det ikkje skjer urimeleg forskjellsbehandling mellom kundegrupper. Dei ser midlertidig at bruk av avansert analyse med auka tal pÄ forklaringsvariablar kan gi auka presisjon. Likevel er det risiko for at bruk av detaljerte data og meir avansert analyse kan fÞre til at enkelte kundar eller kundegrupper blir utelukka frÄ forsikringskollektivet. Dette kan vÊre spesielt relevant for produkt med hÞg samfunnsnytte eller som kan pÄverke sÄrbare kundegrupper sÊrskilt.

Kva om du lagar ein maskinlÊringsmodell der det viser seg at t.d. kjÞnn eller alder er viktige forklaringsvariablar for resultatet av modellen? Kanskje data du har trent modellen med viser at kvinner i 50-Ära oftare har saker det er noko muffens med (for Ä vere heilt klÄr, dette er eit reint hypotetisk eksempel)? Nokre moglege utfall av ein slik modell kan dÄ vere at kvinner i 50-Ära blir reelt forskjellsbehandla ved at dei:

- oftare mÄ vente pÄ manuell saksbehandling

- oftare mÄ bruke ekstra tid og energi pÄ Ä fylla ut skjema

- ikkje fÄr utbetalt erstatning lika effektivt som andre.

Det er difor sÊrs viktig Ä forstÄ modellen og data som ligg bak og vere klÄr over at det kan fÞre til reel forskjellsbehandling og diskriminering. Ein maskinlÊringsmodell lÊrer berre ut frÄ data blir trena pÄ, og du er ansvarleg for Ä tenkje gjennom og vurdera om data du serverar den faktisk representerar verda pÄ ein god mÄte. Kan hende var kjÞnn og alder berre korrelert med ein eigentleg faktor som du ikkje har med i data? Og dersom du hadde inkludert denne sÄ viser det seg at kjÞnn og alder ikkje spela noko rolle.

Eit sentralt prinsipp for oss er at resultatet av maskinlÊringsalgoritmane ikkje gÄr direkte i kundane sin disfavÞr. Det er inga etisk ok mÄte Ä bruka ei maskin for Ä avgjere at nokon ikkje skal fÄ erstatning, sÄ det vil vi ikkje gjere. Men ein kan bruke ei maskin til Ä raskare avgjere at nokon skal fÄ erstatning og slik sett kan algoritmane hjelpe til med Ä fÄ fleire saker til Ä bli heilautomatisert og styre dei fÄ vanskelege sakene til manuell handsaming.

3 — ForstĂ„ kva som er mĂ„let

Om du har fÄtt i oppdrag i Ä laga ein maskinlÊringsmodell for Ä avgjere svik eller ikkje er det viktig Ä stile spÞrsmÄl om kvifor. Etter Ä ha forklara kvifor du ikkje kan eller vil (hugs punkt 1 og 2) ein modell for Ä avgjere om ein sak er svik eller ikkje, sÄ mÄ du freiste Ä finne ut av kva som er mÄlet. Kva er det ein eigentleg hÄpar ein slik modell skal hjelpa ein Ä oppnÄ? Korleis er det tenkt at ein maskinlÊringsmodell skal nyttast? Det er ikkje sikkert det er eitt eintydig svar.

ForsÞk Ä fÄ svar pÄ spÞrsmÄl som:

  • Blir det avdekka for lite svik i dag?
  • Har utreiingsavdelinga kapasitet til Ă„ arbeida med fleire saker enn dei alt gjer?
  • Er kvaliteten pĂ„ dei sakene utreiingsavdelinga arbeidar med for dĂ„rleg?
  • Skal modellen hjelpa til med Ă„ auka automatisering av sakshandsaming?
  • Skal den pĂ„ eit vis hindra svik?
  • Skal den fĂžre til betre kundehandsaming?
  • For kven skal modellen vere eit verktĂžy?
  • I kva prosessar skal modellen integrerast?

Svara du fÄr kan vera fÞrande for kva slags modell du vel Ä lage og ta i bruk (sjÄ punkt 4), og kan hende er dei og motstridande.

Eit naivt ynskje om Ä ha ein modell som finn all muffens er «enkelt» Ä fÄ til ved Ä flagge alle saker. Men ei slik lÞysing vil ikkje fungera fordi det ikkje vil vere kapasitet til Ä manuelt handtera alle sakene. Det vil og gÄ verka direkte i mot eit ynskje om hÞgare grad av automatisering.

MÄlet vil ofte vere eit ynskje om Ä bli meir effektiv og utnytte dei ressursane ein har pÄ best mogleg mÄte. Det er eit gode for alle om vanskelege saker raskast mogleg blir tatt hand om av sakshandsamarar, sÄ ein modell som kan prioritera saker for manuell handtering kan vere eit mÄl. Ein kan og ha som mÄl at ein modell verkar preventivt, som ei form for avskrekking dersom det er kjent at vi nyttar AI for Ä detektera svik.

NÄr du i stÞrst mogleg grad forstÄr kva som er mÄlet, eller mÄla, og ser kor ein maskinlÊringsmodell kan ha stÞrst effekt er du klar for neste punkt, men hugs alltid dei fallgruvene du fann i punkt 2.

4 — Det er ikkje gull alt som glimrar

Det kan vere “lett” Ă„ samla inn data frĂ„ mange ulike kjelder og laga seg eit flott datasett til trening og testing av ein modell for Ă„ finne muffens. Men det er fleire moglege fallgruver du kan gĂ„ i og mĂ„ vere merksam pĂ„.

For det fÞrste mÄ du vurdera om det er lovleg Ä bruka dei data du vil. Det kan hende du har tilgang pÄ mange opplysningar om kundar, men det er slett ikkje sikkert at det er lov til Ä bruka alle opplysningane til Ä laga ein modell for Ä finne muffens.

Det er viktig Ä vere klar over at dei data du har samla og satt saman til eit treningsdatasett, kanskje med tanke pÄ Ä laga ein binÊr klassifikasjonsmodell («Denne saka er heilt OK», «Her er det noko muffens»), mest sannsynleg ikkje er ein faktisk fasit for korleis verda ser ut. Din «gulldata» med merkelappar for muffens eller ok basert pÄ om ei sak har blitt sendt til utreiing eller ikkje. Du mÄ dÄ vere klar over at det i blant alle sakene som er merka som ok sÄ gÞymer det seg eit ukjent tal pÄ saker som eigentleg burde vore merka muffens. Du kan faktisk rekna med at det er meir (ukjent) muffens blant sakene merka som ok, enn det er saker merka som (kjent) muffens (figur 1).

Figur 1 Treningsdata er som regel ikkje den eigentlege fasiten og difor ikkje berre gull.

I og med at forsikringssvindel heldigvis er noko dei fÊrraste driv med, sÄ er som nemnd tidlegare det store fleirtalet av forsikringssaker heilt normale og har ikkje noko muffens ved seg. Det fÞrer naturleg nok til at ein fÄr eit sÊrs ubalansert datasett. Det er langt fleire 0-arar enn 1-arar om ein vil trene ein binÊr klassifikasjonsmodell for Ä finna «muffens».

Figur 2 Kva betyr ein AUC pÄ 0.78 i praksis? Er det bra? Godt nok? Eller ikkje brukande?

NÄr du trenar modellen din er det viktig Ä tenkje over kva metrikk du vil optimalisera for. Som for alle maskinlÊringsmodellar er valet av metrikk avhengig av kva ein vil oppnÄ og data du har. Med eit ubalansert datasett, og spesielt der det mest sannsynleg ikkje er nokon forklaringsvariablar som gjer det lett Ä skilje mellom 0 og 1, er til dÞmes accuracy ein veldig dÄrleg metrikk. Dersom 1 av hundre tilfeller er 1 og resten 0 oppnÄr du accuracy pÄ 0.99 berre ved Ä alltid predikera 0, men du vil dÄ sjÞlvsagt ha ein modell som ikkje finn muffens i det heile tatt. Balanced accuracy kan vere eit betre alternativ, men det er viktig Ä sjÄ pÄ kostnaden av Ä ta feil (falsk negativ mot falsk positiv). Som regel vil ein mÄtte gjere ei avveging mellom precision (kor mange faktisk positive saker er det blant alle saker du merkar som positive) og recall (kor stor del av dei faktisk positive sakene flaggar du). Kva ein vel Ä vektleggje mest er avhengig av korleis modellen skal brukast, kva ein ynskjer Ä oppnÄ og kva slags kapasitet du har til Ä handsame saker som blir flagga.

Ser vi til dÞmes pÄ ROC-kurve (figure 2) sÄ kan den av og til vere misvisande, spesielt for ubalanserte data. Ein ROC-AUC-score pÄ 0,78 er opplagt betre enn ingenting, men du mÄ hugse pÄ kva det faktisk betyr om du klassifiserar i 0 og 1. FrÄ leikeeksempelet i figuren sÄ ser vi at vi kan oppnÄ ein true positive rate pÄ ~0,65 ved ein false positive rate pÄ «berre» ~0,17. AltsÄ at du kan flagge 65 % av dei faktisk positive sakene ved Ä samstundes merke 17 % av dei negative sakene som (falske) positive. Men kva betyr det i praksis der du har sÊrs ubalanserte data? Sei at du har eit datasett der 2 % av sakene faktisk er positive. Om du dÄ har 1000 saker du skal handsame kan du forventa at 20 av dei er positive. Flaggar du 65 % av dei sÄ er det 13 saker, men samstundes mÄ du dÄ forventa Ä flagga 167 saker som positive, men som eigentleg er negative. Er det noko organisasjonen og systema dine kan handtere?

Det er difor viktig Ä ikkje sjÄ seg blind pÄ predikerte 0- og 1-verdiar, men hugse pÄ at ein binÊr prediksjonsmodell leverar ein score, eit tal mellom 0 og 1, og du kan sjÞlv velje kva terskelverdi som kvalifiserar som muffens. Og det er ofte viktig Ä tenkje meir i retning rangering av saker og ikkje rein klassifikasjon. Ein kan for eksempel sjÄ for seg at ein sÄnn modell kan brukast slik at du automatisk sender dei mest muffensluktande sakene til meir erfarne sakshandsamarar.

Noko anna Ä vere klar over er mogleg uÞnskt bias i datasettet. Dei sakene som er merka som «muffens» har fÄtt den merkelappen av nokon. Kanskje det var pÄ bakgrunn av konkrete opplysningar, kan hende det var pÄ bakgrunn av ei ullen magekjensle, eller det var fordi «sÄnne» kundar er det alltid noko muffens ved. Det er difor godt mogleg at det blant dei «ukjent muffens»-sakene skjuler seg eigenskapar som sakshandsamarane aldri eller sjeldan har flagga som muffens. Desse sakene vil dÄ ikkje maskinlÊringsmodellen lÊra seg Ä kjenne att.

Det kan og vere mykje data som potensielt kan gje ein betre modell for Ä finna muffens, men det er ikkje sikkert du har tilgang pÄ tilsvarande data nÄr du skal bruka modellen. Tilsvarande kan det vere data som har god forklaringskraft, men som det ikkje eksisterar historikk for. I og med at muffens er noko som opptrer sjeldan, kan det vere viktig og/eller nyttig Ä ta med data som spenner over eit relativt langt tidsrom. Du mÄ dÄ vere spesielt merksam pÄ trendar og endringar over tid. Kanskje var det muffens med ein type oppfÞrsel eller hending for lenge sidan, men grunna endra forutsetningar er ikkje det sikkert at det betyr noko i dag.

NÄr du tek modellen i bruk er viktig med oppfÞlging og kontinuerleg evaluering av den over tid. Gjennom periodisk revisjon av sakene som har blitt flagga og integrasjon av verktÞy som til dÞmes SHAP og LIME inn i systemet/lÞysinga kan du og brukarane lettare fÄ oversikt over kva som er avgjerande for dei resultata modellen gir. Og sjÞlv om «automatiserte» forklaringar av maskinlÊringsmodellar ikkje gir alle svara, vil dei gjere det lettare Ä kartleggja og jobba med dei utfordringane som vi diskuterte i punkt 2.

Dersom du har lyst til Ä testa korleis ein kan gjere dette i praksis sÄ kan du sjekka ut denne case-oppgÄva som vi arrangerte for foreninga BRAIN NTNU i Trondheim: https://github.com/odaon/muffins-ai-motor

--

--