Gesucht, Gefunden: Semantische Suchmaschinen

DATEV eG

Published in

DATEV TechBlog

4 min readAug 2, 2021

Von: Christoph Stocker

Es ist echt beeindruckend, was Google heutzutage alles schon draufhat.

Sogar “echt bayrische” Begriffe wie Semmel kann Google ohne Probleme dem Brötchen zuordnen.

Auch längere Fragen wie “Was ist der Unterschied zwischen Maracujasaft und Maracujanektar?” beantwortet Google tadellos.

Aber gut, wenn man genauer darüber nachdenkt, ist es eigentlich kein Wunder. Google nutzt schon seit knapp zwei Jahren die mittlerweile fast schon berühmte BERT-Modellarchitektur[1].

Das BERT-Modell ist eine auf Transformern basierende Deep Learning Technologie. Ohne mächtige KI geht heutzutage halt nichts mehr. Um effektiv trainiert werden zu können, ist BERT zwar ziemlich datenhungrig, aber damit sollte Google ja kein Problem haben. Laut einer Schätzung von Gartner hat Google ca. 2,5 Millionen Server [2] (Stand 2016!) und verarbeitet darauf ca. 3,5 Milliarden Suchanfragen pro Tag [3]. Das ist eine Menge Futter zum Trainieren.

Bei DATEV haben wir es da etwas schwieriger. Auf unseren Servern wird zwar auch viel gesucht, z.B. in LEXinform (www.datev.de/lexinform) oder in SmartExperts (www.smartexperts.de), insgesamt kommen wir mit unseren Suchanfragen allerdings “nur” auf läppische 3 Millionen… und das pro Woche, nicht pro Tag.

Für DATEV aber hat Datenschutz und Privatsphäre allerhöchste Priorität, daher verwenden wir grundsätzlich keine im laufenden Betrieb anfallenden Nutzungsdaten der Suchmaschine zum Trainieren einer KI. Stattdessen stützen wir uns nur auf Datenbestände, deren Nutzung aus datenschutzrechtlicher Sicht völlig unbedenklich sind, wie z.B. öffentlich zugängliche Sprachkorpora oder interne Wissensdatenbanken.

Das schränkt natürlich die Möglichkeiten, ein KI-Modell wie BERT zu trainieren, vehement ein. Nur wollen wir unseren Anwender:innen natürlich die gleiche Leistung bieten wie auch Google es kann. Das ist unter den genannten Bedingungen eine große Herausforderung.

Dieser müssen wir uns aber zum Glück nicht allein stellen. Wir haben zusammen mit der Intrafind Software AG (www.intrafind.de) und der TH Deggendorf (www.th-deg.de) das Forschungsprojekt “SEMIARID” ins Leben gerufen, welches uns ermöglichen soll eine Suchmaschinentechnologie zu entwickeln, die sowohl unseren Standards an Datenschutz und Datensicherheit genügt, und dennoch eine deutliche Verbesserung zu rein Term-basierten Suchmaschinen darstellt.

Die Grundidee ist es eine semantische Suchmaschine aufzubauen, die das Beste aus mehreren Welten vereint. Zum einen sollen Embeddings-basierte Verfahren wie Transformer genutzt werden, um effektiv auf einer semantischen Ebene arbeiten zu können. Genauer gesagt wird ein Sprachmodell auf einem internen Dokumentkorpus trainiert, um die Sprachdomäne “Steuern und Recht” hinreichend abzudecken. Zwecks Datensparsamkeit sollen hierbei auch semantische Netze wie Thesauri und Ontologien eingebettet werden können, um bereits vorhandenes Expertenwissen direkt in die Suchmaschine einzuschleusen.

Zum anderen muss die Suchmaschine aber auch gut skalierbar sein, um selbst in Hochlast-Szenarien eingesetzt werden zu können. Hier haben klassische Information Retrieval-Verfahren die Nase vorn. Transformer-Netzwerke benötigen einige Zeit, um den Input durch die Tausende von Neuronen zu jagen. Traditionellere Suchmaschinen hingegen basieren auf dem Prinzip des invertierten Index [4], bei dem über einen simplen Lookup-Mechanismus Suchergebnisse in wenigen Millisekunden abgerufen werden können, auch über riesige Textbestände hinweg.

Wie man sieht, ist die Synthese der beiden Verfahren gar nicht so leicht, da diese Verfahren auf völlig unterschiedlichen Paradigmen beruhen. Aber es gibt auch einen Silberstreifen am Horizont:

Techniken wie das “Semantic Hashing” [5] ermöglichen es auf Semantik statt auf Termen basierende Informationen in einem invertierten Index zu speichern. Einer der im Projekt SEMIARID zu erforschenden Ansätze wird es sein, Embeddings auf ein solches Semantisches Hashing zu mappen, so dass die Vorteile aus beiden Welten vereint werden können.

Ist diese Aufgabe gelöst, kann auch vorhandenes Expertenwissen, welches als Wissengraph vorliegt, in das Mapping mit einfließen. Hierzu gibt es Stand heute bereits Verfahren wie “node2vec” [6], mit denen sich Graphstrukturen in Embeddings umwandeln lassen.

Unsere Aufgabe für die Laufzeit des Forschungsprojektes über drei Jahre besteht also “nur” noch darin, die bestehenden Ansätze miteinander zu kombinieren. Kann eigentlich nicht so schwer sein, oder?

Nun ja, einige Fallstricke gibt es da schon noch. Zum Beispiel braucht man weiterhin ein Transformer-Netzwerk (plus Mapping-Funktion), welches eine eingehende Suchanfrage in einen Hashwert umwandelt. Da jede Suchanfrage in Echtzeit beantwortet werden soll, muss dieses Netzwerk recht klein und damit performant sein.

Eine weitere Herausforderung stellt die Aufbereitung des Dokumentenbestandes dar. Damit eine Information zielgerichtet gefunden werden kann, muss diese erstmal aus einem großen Dokument, welches auch zahlreiche andere Informationen enthält, extrahiert werden. Je nach Strukturierung der Dokumente kann das ein schwieriges Unterfangen sein. In manchen Suchszenarien enthalten die Dokumente nicht einmal syntaktisch korrekte Sätze, geschweige denn sauber gepflegte Strukturen wie Überschriften, Header oder Footer.

Es wird in den drei vor uns liegenden Jahren also spannend bleiben, aber wir sind zuversichtlich, dass unser Expertenteam aus Computerlinguist:innen und Software-Entwickler:innen das schafft.

Wir halten euch auf dem Laufenden :)

[1] Understanding searches better than ever before (blog.google)

[2] Google data centers — Wikipedia

[3] 10 Google Search Statistics You Need to Know in 2021 | Oberlo

[4] Invertierter Index — Wikipedia (wikinew.wiki)

[5] Semantic Hashing — Distributed Algorithm (wordpress.com)

[6] node2vec (stanford.edu)

Photo by Mick Haupt on Unsplash

Gesucht, Gefunden: Semantische Suchmaschinen

Written by DATEV eG