Über Record Linkage und den “Golden Record”

Unterschiede in den Informationen zu den selben Objekten oder Personen in verschiedenen Systemen führen zu Problemen in automatisierten Prozessen. Die Digitalisierung wird damit erschwert und führt zu ungewollten Effekten. Daher sind Methoden des “Record Linkage” notwendig, um den einen “Golden Record” zu einem Objekt zu finden.

Der Betrieb unterschiedlicher Datenbanken und das Lesen verschiedener Quellen führt unweigerlich zu Unterschieden im Datenhaushalt. Selbst mit Hilfswerkzeugen und Schnittstellen zwischen den Systemen sind typische Diskrepanzen unvermeidbar. Daher ist das Auffinden und Zusammenführen eindeutiger Datensätze von Kunden, Verträgen, Produkten oder Diagnosen notwendig. Denn erst das Zusammenführen oder Verketten gleichartiger Informationen aus verschiedenen Quellen zu einem eindeutigen Datenobjekt ermöglicht die Erkennung aller Zusammenhänge und deren Bearbeitung. Um diesen “golden record” zu erreichen, sind die Methoden des “Record Linkage” notwendig, wenn kein Referenz-Katalog vorliegt; d.h. wenn keine Prüfung gegen einen definierten Daten-Bestand durchgeführt werden kann.

“Die Lösung ist immer einfach, man muss sie nur finden” Alexander Solschenizyn

Die Nutzung verschiedener Datenbanken in unterschiedlichen Fachbereichen, unterschiedliche Anwendungen und die Anreicherung der Daten aus anderen (externen) Quellen führt dazu, dass gleiche Datensätze zu dem selben Kontext unterschiedliche Zustände aufweisen. Hierzu zählen beispielsweise:

  • fehlende Informationen
  • fehlerhafte Informationen
  • veraltete Informationen
  • unterschiedliche Datenschema
    (z.B. verschiedene Einheiten für gleiche Angaben)

Die Vielzahl der Anwendungen und Fachbereiche erlaubt es kaum, eine universelle Lösung zur Behebung der Unterschiede zu finden. Denn eine Lösung für ein Unternehmen kann zu ungewollten Ergebnissen bei einem anderen führen. Daher beschreibt der “Record Linkage”-Ansatz nur einen möglichen Lösungsweg.

Durch die Unterschiede in den verschiedenen Systemen ohne einen führenden Referenz-Datenbestand ist auch kein “überwachtes Lernen” (“supervised learning”) möglich, also das maschinelle Lernen auf Basis von Vergleichen und der Ermittlung von Wahrscheinlichkeiten auf Basis des Referenz-Bestandes. Viel mehr müssen alle Datensätze gegeneinander geprüft werden, um Ähnlichkeiten zu finden und die Übereinstimmung zu bewerten.

Bevor dieser Weg gegangen wird, sind allerdings vorbereitende Schritte notwendig, um die vorhandenen Daten in den unterschiedlichen Quellen bestmöglich so vorzubereiten, dass diese automatisiert maschinell nutzbar sind.

Vorbereitende Schritte

Jeder Datenbestand ist von den Arbeits- und Daten-Prozessen im jeweiligen Fachbereich abhängig. Je nach Anforderung werden nur ausgesuchte Informationen erfasst, gespeichert und verarbeitet. Denn nicht alle Informationen über ein Objekt oder eine Person sind für einen Arbeitsprozess notwendig. Des Weiteren hat nicht jeder Anwender das Recht alle Daten einzusehen oder zu ändern. Es liegen also sowohl fachliche, wie auch rechtliche Gründe vor, die zu Unterschieden in den verschiedenen Datenbestände der beteiligten Systeme führen.

Für den Vergleich und die Zusammenführung unterschiedlicher Datenbestände müssen die enthaltenen Informationen möglichst auf den “kleinsten gemeinsamen Nenner” gebracht werden. Trotz - zum Teil - unterschiedlicher Datenbestände können und sollten die enthaltenen Informationen daher vier grundlegende Anforderungen in jedem einzelnen Datenbestand erfüllen. Die Informationen sollten daher mindestens

  • atomar,
  • vollständig,
  • korrekt,
  • aktuell und
  • redundanzfrei

vorliegen und ggf. entsprechend korrigiert werden. Jeder der fünf geforderten Zustände kann zudem separat betrachtet werden. Hierbei handelt es sich allerdings um eine Idealvorstellung, die in der Realität kaum vollständig erreicht werden kann.

atomar

Der Begriff atomar (griechisch: atomos „unteilbar“) bezeichnet Daten in ihrer kleinsten (unteilbaren) Informationseinheit. Beispielsweise kann eine Adresse in Einzelinformationen zerlegt werden.

Beispiel: `Pariser Platz 1, 10117 Berlin`

In diesem Beispiel liegen vier atomare Informationen vor, die separat gespeichert werden sollten. Die einzelnen Felder lauten daher:

Straße (`Pariser Platz`); Hausnummer (`1`); Postleitzahl (`10117`) und Ort (`Berlin`)

Ähnliches ist ebenso mit anderen Informationen über weitere Objekte möglich. Angaben zu Personen, Artikeln, Diagnosen, Dokumenten u.a. können genauso in Einzelinformationen zerlegt werden. Erst diese ermöglichen den eindeutigen Vergleich mit Daten aus einer anderen Datenhaltung, die Überprüfung der vorliegenden Werte gegen eine “Erwartungshaltung” (“value set”) und die eindeutige Selektion bestimmter Kriterien.

Im Zuge des “Record Linkage” können somit einzelne Werte exakt miteinander verglichen werden (deterministisch).

vollständig

Der Terminus “Vollständigkeit” bezieht sich nicht nur auf die fachlich notwendigen Informationen eines Datensatzes — also die Beschreibung eines Objektes, einer Person, eines Produktes o.ä. — sondern auch auf jede einzelne Information. So handelt es sich beispielsweise bei folgenden Werten um eine postalisch korrekte Abkürzung, aus Daten-Sicht allerdings um eine unvollständige Angabe:

  • Adm.-Nelson-Str.
  • Adm.Nelson-Street
  • Admiral-Nelson-Str.

Erst mit Admiral-Nelson-Street ist der Wert vollständig ausgeschrieben und kann mit anderen Werten verglichen werden.

korrekt

Unterschiedliche Datenbestände können dazu führen, dass nicht alle enthaltenen Informationen korrekt vorliegen. So ist zu klären, ob bspw. alle Adressangaben einer Person richtig sind. Aber auch bei Informationen über Objekte, Maschinen, Gesundheitszustand u.ä. ist zu prüfen, ob die gespeicherten Informationen Fehler aufweisen. Dieses kann mit dem Vergleich gegen einen Referenz-Datenbestandes erfolgen; z.B. der Vergleich gegen offizielle Adressverzeichnisse oder gegen erlaubte und erwartete Wertebereiche (“constraints” und “value sets”).

Aus dem zuvor genannten Beispiel wird durch die Korrektur eine andere Angabe der Adresse:

  • Admiral Nelson Pub, 49 Nelson Street

Die korrekte Schreibweise hat in diesem Fall nicht nur die Korrektur der Adresse zur Folge, sondern auch die Einordnung des Titels “Admiral” in den richtigen Kontext.

Als weiteres Beispiel können auch andere Daten herangezogen werden. Es könnten bspw. folgende Daten vorliegen:

  • Körpertemperatur: 101°C

Einerseits stellt sich hier wieder die Frage des Kontextes (ist “Körper” ein medizinischer oder maschineller Kontext?); andererseits die Frage, ob der Wert sich in einem erlaubten Bereich befindet. Im medizinischem Kontext handelt es sich vermutlich um die Angabe in Fahrenheit, obwohl die Dimension in Celsius angegeben wurde.

Durch die ungültige Kombination von Werten und Dimensionen entsteht ein fehlerhafter Kontext, den sogar die Nasa 1999 mit dem Mars Climate Orbiter begangen hat, indem sie die Höhenangaben für eine automatische Landeeinheit von Fuß in Meter vertauschte (http://www.spiegel.de/wissenschaft/mensch/mars-climate-orbiter-absturz-wegen-leichtsinnsfehler-beim-rechnen-a-44777.html).

Es gilt daher, dass an jeder Schnittstelle (maschinell, wie menschlich) die Einhaltung erwarteter Werte geprüft wird.

aktuell

Der Zustand von Objekten und Personen ändert sich im Laufe der Zeit. Auch wenn die zuvor genannten Punkte erfüllt wurden, ist zu prüfen, in wie fern jede gespeicherte Information innerhalb eines Zeitraums Änderungen unterliegen kann.

Beispielsweise zieht eine Person im Durchschnitt alle 7 Jahre einmal um. Im Alter zwischen 20 und 40 häufiger als im Alter zwischen 50 und 70. Die permanente Prüfung der aktuellen Adresse ist daher nicht notwendig, kann aber für jüngere Personen häufiger erfolgen, als bei älteren Personen. Im Gegensatz dazu können sich Sensordaten von Maschinen sehr häufig ändern und unterliegen damit automatisch einer ständigen Kontrolle. Die Aktualität, um Daten korrekt miteinander vergleichen zu können, ist daher ebenso notwendig, wie die zuvor genannten Anforderungen.

Im Idealfall ist daher zu jeder Änderung von Daten das Erfassen und Speichern eines Zeitstempels erforderlich, über den die Änderungshistorie eines jeden Wertes nachvollziehbar ist.

redundanzfrei

Mit der Forderung der Redundanzfreiheit ist die Reduzierung der Daten ohne Informationsverlust gemeint. Diese Forderung stammt aus der Modellierung von Datenbanken und gehört zur sog. “Normalisierung”. Hiermit ist gemeint, dass von zwei Angaben mit derselben Aussage eine ohne Informationsverlust entfallen kann. Beispielsweise kann in mehrere Datensätzen aus der Kombination von Postleitzahl und Ort der Ort entfallen. Denn durch die Postleitzahl ist der Ort eindeutig bestimmbar. Würde die Postleitzahl entfallen, so blieben mehrere Möglichkeiten der Postleitzahlen-Zuordnung.

Für das Record Linkage führt damit die Betrachtung eines einzelnen Datensatzes zu eindeutigen und einfacheren Vergleichen.

Das Record Linkage

Mit Hilfe des Record Linkage wird das Problem gelöst, Datensätze zu finden, die sich auf den selben Sachverhalt (Objekt, Person, Vertrag, …) beziehen und diese zu verknüpfen oder in einem gemeinsamen Datensatz zusammen zu führen (“Golden Record”). Dadurch ist es möglich, eindeutige Objekte zu identifizieren, Redundanzen zu vermeiden und unterschiedliche Datenbestände korrekt zu aktualisieren. Neben den gesetzlichen Anforderungen (DSGVO/GDPR) ergibt sich für ein Unternehmen ein gemeinsamer, einheitlicher Datenbestand, der von unterschiedlichen Fachbereichen genutzt werden kann.

Darüber hinaus sind für ein Unternehmen Datenanalysen im Gesamtkontext und eine ganzheitliche Betrachtung möglich. Dieses kann durch maschinelles Lernen erweitert werden, um Entwicklungen zu bewerten, vorherzusagen oder um Bewertungen (“Rating”) vorzunehmen.

Wurden die vorhergehenden Schritte durchlaufen, stehen zwei Ansätze für das Record Linkage zur Verfügung: “deterministisch” und “probabilistisch”.

Der deterministische Ansatz

Einfach definiert beschreibt Determinismus ein vorhersehbares Ergebnis auf Basis damit zusammenhängender, vorbestimmter Faktoren (Kausalität). Über den deterministischen Ansatz wird also über gleichartige, zusammenpassende Inhalte bestimmt, ob ein Datensatz-Paar in einer definierten Menge von Identifikatoren (Feldinhalte) übereinstimmt oder nicht. Die Übereinstimmung wird hierbei als “alles-oder-nichts”-Ergebnis bewertet.

Beispiel: Gegeben seien vier Datensätze mit Vor- und Nachname:

Datensatz 1: Kerstin Meyer
Datensatz 2: Kerstin Mayer
Datensatz 3: Kirsten Meyer
Datensatz 4: Kirsten Mayer

Aus deterministischer Sicht liegen damit jeweils nur zwei Übereinstimmungen der Vornamen und Nachnamen vor. Datensatz 1 und 2, sowie 3 und 4 stimmen im Vornamen überein; die Datensätze 1 und 3, sowie 2 und 4 stimmen im Nachnamen überein. Es liegt daher keine 100%-Übereinstimmung vor. Mit dem deterministischen Ansatz wird also kein Link gebildet.

Die Prüfung auf Übereinstimmung kann hierbei also nur über mehrere Schritte erfolgen. Der Vergleich der Datensätze je Feld führt damit bei jedem Datensatz zu zwei Links die mit 50% Übereinstimmung bewertet werden können (ein Feld stimmt immer mit einem Feld der restlichen drei anderen Datensätze überein; das andere nicht).

Der deterministische Ansatz ignoriert daher die Tatsache, dass bestimmte Werte eine höhere Ungenauigkeit besitzen als andere. Um dieses zu berücksichtigen, muss auf einen probabilistischen Ansatz (“Wahrscheinlichkeitsaussage”) zurückgegriffen werden.

Der probabilistische Ansatz

Die beiden Mathematiker Ivan P. Fellegi und Alan B. Sunter beschrieben bereits 1969 in ihrem mathematischen Modell “A theory for record linkage” (https://courses.cs.washington.edu/courses/cse590q/04au/papers/Felligi69.pdf) zwischen Matches, mögliche Matches oder Nicht-Matches auf Basis der Wahrscheinlichkeitsrechnung. Dieses Modell basiert auf der Berechnung von Verknüpfungspunkten und der Anwendung von Entscheidungsregeln. Aufgegriffen und erläutert wird dieses u.a. auch von dem Statistischen Bundesamt (DeStatis) in der Zusammenfassung “Automatisierte Zusammenführung von Daten - Das Modell von Fellegi und Sunter” von Dr. Josef Schürle (https://www.destatis.de/DE/Publikationen/WirtschaftStatistik/Gastbeitraege/ZusammenfuehrungDaten42005.pdf?__blob=publicationFile)

Der probabilistische Ansatz bewertet somit bei dem Vergleich der Feldinhalte die Übereinstimmung als Wahrscheinlichkeiten. Das oben genannte Beispiel kann daher nochmal aufgegriffen werden.

Datensatz 1: Kerstin Meyer
Datensatz 2: Kerstin Mayer
Datensatz 3: Kirsten Meyer
Datensatz 4: Kirsten Mayer

Wie hier zu erkennen ist, kann aus dem Vornamen Kerstin durch das Vertauschen von i und e ein neuer Vorname entstehen. Das kann bspw. durch einen Buchstabendreher bei der manuellen Eingabe passieren. Dieses Vorkommen muss also gefunden werden, um eine Bewertung der Abweichung bestimmen zu können. Ähnliches gilt bei dem Nachnamen “Meyer” in all seinen Schreibformen bei gleicher, phonetische Aussprache.

Um abweichende, aber nahezu identische Werte, zu finden, können aus den vorhandenen Informationen neue Vergleichswerte gebildet werden. Beispielsweise anhand von phonetischen und anderen Algorithmen.

Beispiel: Gegeben seien vier Datensätze mit Vor- und Nachname mit zusätzlichen Feldern für phonetische Laute und “normierten” Werten, um Buchstabendreher zu finden:

Datensatz — Vorname — Nachname — phonetische — normierte 
Datensatz 1: Kerstin — Meyer — CARSTA — MAYAR — kneirst — mreey
Datensatz 2: Kerstin — Mayer — CARSTA — MAYAR — kneirst — mraey
Datensatz 3: Kirsten — Meyer — CARSTA — MAYAR — kneirst — mreey
Datensatz 4: Kirsten — Mayer — CARSTA — MAYAR — kneirst — mraey

Die zusätzlichen Werte ergänzen die realen Werte um phonetische Laute nach dem NYSIIS Standard. Ergänzend dazu werden normierte Werte hinzugefügt, die nach einem Algorithmus gebildet wurden, der an die Arbeit von Ernest Rawlinson, “The significance of letter position in word recognition”, aus dem Jahr 1976 angelehnt ist.

Die These der Arbeit von Rawlinson beruht auf der Behauptung, dass beim Lesen die Worte als “Muster” erkannt werden und nicht Buchstabe für Buchstabe. Daher kann ein Text auch dann gelesen werden, wenn zwischen dem ersten und letzten Buchstaben eines Wortes die Buchstaben vertauscht werden (“Wnen deseir Txet lsbear ist, stmimt die Tehse”).

Der Algorithmus für die normierten Werte nach Rawlinson arbeitet in Kleinschreibung und schiebt den ersten und letzten Buchstaben an den Anfang des Wertes. Die restlichen Buchstaben werden alphabetisch sortiert dahinter aufgeführt. Aus den Vornamen Kerstin und Kirsten folgt daher immer der gleiche Wert kneirst.

Nach der Speicherung der ergänzenden Werte können die Datensätze nun wieder verglichen werden. Über sechs Felder wird dann auch für die phonetischen Laute und den normierten Vornamen eine Übereinstimmung festgestellt.

Durch die Ermittlung ähnlicher Werte muss das Ergebnis des Vergleichs nunmehr mit einer Wahrscheinlichkeit bewertet werden, um bei der möglichen Übereinstimmung ähnlicher Datensätze einen Link zu setzen. Hierin liegt der manuelle Aufwand und die eigentliche Kunst des Record Linkage.

Es ist also erkennbar, dass es nicht die universelle Lösung mit Hilfe des Record Linkage gibt, sondern nur ein Lösungsansatz beschrieben wird, der je nach Einsatzbereich angepasst und optimiert werden muss.