Same Same but different — Bruk av data i maskinlæring

Jan Erik Modal
Nov 29, 2018 · 4 min read

Født tidlig på sekstitallet. Ikke eldst og ikke yngst i søskenflokken. Datter av en kontorfullmektig.
Visuelt betinget dysleksi, men sterke muntlige evner.

Vi har samlet og brukt opplysninger fra kunder alt etter som vi har hatt behov. Vi har gjort det for det beste for kunden. Det vil vi fortsatt gjøre, men vi vil ha et tydeligere grunnlag og formål. Ikke minst vil vi bli flinkere til å si fra om hva bruker dataene til og hvordan vi gjør det.

Det er de samme dataene, brukt til det samme, men det er ikke det samme. Det er “Same Same but Different”.

I sommer kom det en ny personopplysningslov (POL) som gjør at vi må være mer bevisst på hvilke data vi samler inn, og hvordan vi bruker dataene. Blant annet er det nå slik at all behandling av personoplysninger er forbudt, med mindre man har et lovlig grunnlag og et presist formål.

Første spørsmål blir da: Hva er personopplysninger? Jo, i følge Datatilsynet er det “alle opplysninger og vurderinger som kan knyttes til deg som enkeltperson”. Det må altså tre elementer til for at vi har en personopplysning:

  1. En fysisk person
  2. En opplysning
  3. En kobling mellom person og opplysning

Opplysningene i første avsnitt mangler koblingen til en person, og er derfor ikke personopplysninger. Er det ikke personopplysninger, gjelder heller ikke personopplysningsloven (også kjent som GDPR). Titt på første avsnitt igjen. Hva om vi legger til en opplysning (uthevet) slik at vi har:

Født tidlig på sekstitallet. Ikke eldst og ikke yngst i søskenflokken. Datter av en kontorfullmektig.
Visuelt betinget dysleksi, men sterke muntlige evner. Norges statsminister siden 16.okt 2013.
(Kilde: hoyre.no/Wikipedia)

Vipps, så er opplysningene i første avsnitt blitt personopplysninger!

Endringene som kom med den nye personopplysningsloven gjør at rekkefølgen vi gjør ting i, er blitt viktigere. Og er rekkefølge viktig, så er prosess riktig.

Første spørsmål du bør stille deg er: Trenger jeg personopplysninger for å løse oppgaven?
Det kan godt være slik at du i utgangspunktet har personoppysninger, men at du egentlig ikke trenger det. Du kan da anonymisere eller avpersonifisere opplysningene, dvs fjerne all personkobling. Dette er vanskelig om ikke umulig, gitt den teknologiske utviklingen. For det er slik at for at opplysninger skal være anonymisert, så må det ikke være mulig å gjenopprette koblingen (reidentifisere) ved “bruk av alle hjelpemidlene som med rimelighet kan tenkes brukt” for å identifisere vedkommende. Her skal man ikke bare tenke på mulighetene som er tilgjengelig i dag, men også med tanke på morgendagens hjelpemidler — innenfor rimelighetens grenser.

Det er uansett lurt å gjøre tiltak som svekker personkoblingen. Dette vil være med på å redusere personvernkonsekvensen.

Det fins mange ulike teknikker for å redusere personkoblingen. Trenger man for eksempel kjønn og alder, trekker man dette ut fra fødselsnummeret som separate attributter i stedet for å benytte hele nummeret. Datatilsynet har en egen veileder for anonymisering av personopplysninger, den finner du her

I mange tilfeller er det også slik at det er regionale forskjeller, og vi trenger vite hvor ting har skjedd. Postnummer er kjekt å bruke. Men som vi så i eksempelet over, så er det slik at når man setter sammen enkeltopplysninger så kan de bli personoplysinger. Gjør vi det motsatt, altså fjerner f.eks de to siste sifrene i postnummeret, så aggregerer vi informasjonen. Det er en fin måte å beholde hovedinformasjonen, samtidig som man sørger for at at det blir vanskeligerer å reidentifisere en person.

Prosessen vår frem til vi faktisk får tilgang til data til et maskinlæringsprosjekt:

Vi følger denne prosessen også om vi ikke skulle ha personopplysninger. I mange tilfeller kan ting endre seg underveis, og da er det greit å ha det formelle på plass. Skulle vi ikke få behov for personopplysninger, er det likevel enklere med én prosess enn flere, og vi jobber da også kontinuerlig med å forenkle og forbedre prosessen.

Det er nå det begynner å bli spennende! Følg med for neste steg i prosessen “Kjenn dine data”.

SpareBank 1 Utvikling

Vi jobber med digitale løsninger hos SpareBank 1. Vi liker å skrive om det vi brenner for

Jan Erik Modal

Written by

SpareBank 1 Utvikling

Vi jobber med digitale løsninger hos SpareBank 1. Vi liker å skrive om det vi brenner for

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade