Topic Modeling in Embedding Spaces

DATEV eG
DATEV TechBlog
Published in
4 min readJun 28, 2020

Von: Fabian Swoboda

Wenn die Rede von Topic Modeling ist, kommt man in der Regel nicht am LDA-Algorithmus vorbei. Er ist eine Art Königsdisziplin und einer der am häufigsten verwendeten Methoden in diesem Bereich. Selbst wir im Innovation Lab experimentieren mit LDA, um aussagekräftige Topics aus Textdaten zu generieren. Nun wurde allerdings eine Methode entwickelt, die noch präzisere Ergebnisse als der LDA-Algorithmus liefern soll. Traditionelle Topic Models haben große Probleme interpretierbare Topics zu erlernen, wenn sie mit großen und umfangreichen Wortschätzen arbeiten müssen. Genau an dieser Problematik setzt das von Dieng, Ruiz und Blei 2019 entwickelte “Embedded Topic Model” (ETM) an (https://arxiv.org/abs/1907.04907). Dabei handelt es sich um ein generatives Modell von Dokumenten, welches traditionelle Topic Models mit Word Embeddings verbindet. Da wir im Innovation Lab aktuell im Bereich Topic Modeling mit Word Embeddings und LDA experimentieren, haben wir die Vorgehensweise beim ETM mal etwas genauer unter die Lupe genommen.

Wie genau unterscheidet sich das ETM- vom LDA-Modell?

Das ETM kann man sich als eine Erweiterung des LDA-Modells vorstellen. Eines der Ziele bei der Entwicklung des ETM ist die Berücksichtigung der Ähnlichkeiten zwischen Wörtern. Während bei traditionellen Verfahren im Topic Modeling jedes Topic eine Verteilung über das Vokabular ist, werden beim ETM neben den Wörtern eben auch die Topics selbst als eingebettete Vektoren in einem semantischen Vektorraum repräsentiert. Dieser Vektor wird als Topic Embedding bezeichnet. Das ETM weist also einem Wort ein bestimmtes Thema anhand der Ähnlichkeit seiner eigenen Embeddings und dem Embedding des Topics zu. Je höher die Übereinstimmung der beiden Embeddings, desto höher ist die Wahrscheinlichkeit des Wortes gegenüber einem Topic.

Die Word Embeddings wiederum, werden in der Praxis entweder zuvor angepasst, oder als Teil des gesamten “Fitting”-/Anpassungs-Verfahrens erlernt. Die erste Variante wird als “Labeled ETM” bezeichnet und ist besonders nützlich, wenn Wörter im Embedding vorhanden sind, die nicht im Dokumentenkorpus verwendet werden. Das ETM kann aus dem Produkt der Word Embedding-Matrix und dem Topic Embedding eine Hypothese aufstellen, inwiefern diese Wörter zu den Topics passen, selbst wenn diese Wörter nicht im Korpus enthalten sind.

Abbildung 1 bildet ein Topic über Christentum aus einem 300-Topics-ETM der New York Times ab. Die Abbildung zeigt das Topic Embedding und dessen naheliegenden Wörter. Aufgrund der Topic-Darstellung in Bezug auf einen Punkt im Embedding-Raum, ist das ETM im Gegensatz zu den meisten gängigen Topic Models auch robust gegenüber Stoppwörtern. Anstatt sie vorher entfernen zu müssen, werden die Stoppwörter beim ETM sozusagen als eigenes Topic zusammengefasst, ohne dass dabei die Performance darunter leidet.

Abbildung 1 Ein aus ETM erzeugtes Topic über Christentum. Das Topic ist ein Punkt im Embedding-Raum.

Aufbau der Studie und Datengrundlage

In der Studie wurde die Performance des ETM mit anderen unsupervised Dokumenten-Modellen verglichen. Als Datenbasis wurden Dokumente der 20Newsgroups und der New York Times herangezogen, wobei die Performance hinsichtlich der Vorhersagegenauigkeit und der Interpretierbarkeit des Topics gemessen wurde.
Die Vorhersagegenauigkeit wird dabei mittels Log-Likelihood bei einem “Document Completion Task” durchgeführt. Dabei wird anhand der ersten Hälfte des Dokuments eine Aussage über die Wahrscheinlichkeit der Topics der zweiten Hälfte des Dokuments getroffen.
Die Interpretierbarkeit der Topics wird dagegen als eine Mischung aus Topic-Kohärenz und Topic-Diversität gemessen. Die Idee hinter der Topic-Kohärenz ist, dass die wahrscheinlichsten Wörter in einem zusammenhängenden Topic ähnliche Information aufweisen. Dokumentmodelle mit höherer Themenkohärenz sind dabei besser zu interpretieren, wohingegen eine Diversität nahe Null auf redundante Topics hinweist. Die Gesamtmetrik für die Topic-Qualität ist letztendlich das Produkt aus Topic-Diversität und Topic-Kohärenz.

Um einen Vergleichswert der Performance zu erhalten, wird das ETM einerseits mit dem LDA und andererseits mit einem weiteren generativen Model, dem neuronalen Variationsdokumentmodell (NVDM) verglichen. Da allerdings das NVDM nicht wirklich als Topic Model interpretierbar ist, wurde zusätzlich eine leicht abgeänderte Form des NVDM verwendet, welche als Δ-NVDM bezeichnet wird.

Ergebnisse der Topics

Alle Methoden erzeugen interpretierbare Ergebnisse, wobei sich die Embeddings des Δ-NVDM ein wenig von den Embeddings der anderen Verfahren unterscheiden. Auch wenn es darum geht, Topics zu erzeugen, liefern LDA und ETM im Gegensatz zu NVDM und Δ-NVDM interpretierbare Ergebnisse. Das Weitern wurde bewiesen, dass das ETM unter den Modellen mit interpretierbaren Topics die besten Vorhersagen im Zuge des oben erwähnten Document Completion Task liefert.

Abbildung 2: Topic-Qualität mit Stoppwörter anhand des New York Times Dataset

Fazit

Auch in diesem Teil unserer durch COVID-19 geschuldeten virtuellen Reading-Group, hatten wir es mit einem komplexen Paper im Bereich Topic Modeling zu tun. Das von Dieng et. al 2019 entwickelte ETM-Modell stellt eine Erweiterung des LDA-Algorithmus dar und liefert trotz vorhandener Stoppwörter und sehr großem Wortschatz interpretierbare Topics und eine hohe Vorhersagepräzision. Auch wenn die Studie phasenweise schwer nachzuvollziehen war, hat sich auch dieses Mal wieder die Schwarmintelligenz der Teilnehmer als Vorteil erwiesen und so konnten wir uns sukzessiv durch die formellastige Forschungsarbeit durcharbeiten. Die Ergebnisse sind aus unserer Perspektive sehr interessant und sprechen deutlich dafür, unsere LDA-Experimente zumindest mit dem ETM-Verfahren abzugleichen.

--

--

DATEV eG
DATEV TechBlog

DATEV eG steht für qualitativ hochwertige Softwarelösungen und IT-Dienstleistungen für Steuerberater, Wirtschaftsprüfer, Rechtsanwälte und Unternehmen.