Table Recognition — komplexe Tabellenstrukturen maschinell verarbeiten

DATEV eG
DATEV TechBlog
Published in
4 min readMay 20, 2020

Von: Michael Ott

Auch wir haben uns von Corona nicht unterkriegen lassen und unsere Reading Group​ im Homeoffice via Blue Jeans fortgeführt. Wir beschäftigten uns mit einem Paper zum Thema Image Based Table Recognition (Zhong et al, 2020), also zur automatischen Erkennung von Struktur und Text von Tabellen. Aufgrund der Vielzahl von Formaten und Stilarten, stellt es eine besondere Herausforderung dar, diese in ein maschinenlesbares Format zu bringen und automatisiert weiterzuverarbeiten.

Table Recognition

Bei der maschinellen Erkennung von Tabellen gibt es drei Hauptfelder. Die Erkennung von Tabellen aus Fließtext in Dokumenten (table detection), die Erkennung der Tabellenstrukturen also Zellen, Zeilen und Spalten (table structure recognition) und die Erkennung von sowohl Struktur als auch dem Inhalt der einzelnen Zellen (table recognition). Auf dem Markt gibt es bereits etliche Programme, die sich mit dieser Thematik beschäftigen. Von Python Libraries wie Camelot oder PdfPlumber, freier Software wie Tabula, bis zu kommerziellen Anbietern wie Adobe ist hier alles vorhanden. Das vorliegende Paper beschäftigt sich vor allem mit Erkennung von Struktur und Inhalt der Tabellen, auf die Erkennung von Tabellen in Text selbst wird nicht eingegangen.

Datengrundlage PubTabNet

Um einen möglichst großen und heterogen Datensatz an Tabellen zum Training des Table Recognition Modells zu erhalten, erzeugen die Autoren den bisher größten öffentlich zugänglichen Datensatz für dieses Anliegen, PubTabNet​. Dabei nutzen Sie das Open Access Subset von Pub Med Central (PMOCA), einem Archiv für wissenschaftliche Artikel in den Bereichen Biologie und Biomedizin der amerikanischen Bibliothek für Medizin (NLM). Der Datensatz wird automatisch generiert und umfasst 568.000 Tabellen.

Modell Encoder Dual Decoder (EDD)

Wie bereits erwähnt, gibt es schon etliche Programme, die Tabellen erkennen und strukturiert wiedergeben können, jedoch gibt es relativ wenig Forschung speziell im Bereich der bildbasierten Tabellenerkennung. Um diese Forschung in diesem Gebiet voranzutreiben, entwickelten die Autoren ein verbessertes Encoder Dual Decoder Modell (EDD). Die relativ komplexe Architektur des Modells ist in der unteren Abbildung dargestellt. Als Encoder wird ein Convolutional Neural Network (CNN) verwendet, welches zunächst die visuellen Merkmale des Tabellenbildes einliest und verarbeitet. Für die Erkennung der Tabellenstruktur und des Inhalts werden jeweils zwei unterschiedliche „attention based decoders“ verwendet. Diese bestehen beide wiederum aus Recurent Neuronal Networks (RNN), genauer genommen aus Long Short Term Memory Networks (LSTM).

EDD Modell Architektur

Grund für die Verwendung von zwei Decodern ist, dass hier zwei sehr unterschiedliche Aufgaben erfüllt werden müssen: Zum einen die Erkennung des Zellinhaltes und zum anderen die Erkennung der Tabellenstruktur. Der Struktur-Decoder erstellt nur die HTML Tags für die Struktur der Tabelle. Sobald dieser eine neue Zelle erkennt, wird der Zell-Decoder ausgelöst um den Inhalt der Zelle zu berechnen. Zuletzt wird der Output der beiden Decoder zusammengeführt und das jeweilige HTML Format der Tabelle erzeugt.
Komplexität hat ihren Preis: die Zeitdauer, die das Modell zum Trainieren benötigt, beträgt 16 Tage bei Verwendung von zwei V100 GPUs.

Gütemaß — TEDS

Um die Güte des neuen Modells mit anderen Modellen vergleichbar zu machen, wird ein neues Gütemaß eingeführt: Tree Edit Distance based Similarity (TEDS). In Experimenten hat sich gezeigt, dass sich dieses Maß für die Bewertung besser eignet als die üblicherweise verwendeten Maße, wie der F1 Score. Dieser bestraft leichte Veränderungen im Textinhalt einer Zelle übermäßig stark. Änderungen an der Tabellenstruktur, wie zum Beispiel Zellverschiebungen, jedoch weniger stark. TEDS hingegen erweist sich als robuster und kann diese Veränderungen angemessener erfassen.

Modell Ergebnisse und Evaluation

Das von den Autoren entwickelte Modell ist (den oben genannten) Alternativen deutlich überlegen und es kann damit gelingen, auch relativ komplexe Tabellen fast fehlerfrei wiederzugeben, wie folgende Beispiele zeigen:

​Vergleich von Tabellenstruktur der Orginaltabelle mit EDD, Acrobat und Camelot und dazugehörige TEDS Scores

Andere Programme können sowohl die Struktur als auch den Inhalt der Tabelle nicht fehlerfrei wiedergeben, was teilweise dazu führt, dass die Tabelle kaum noch lesbar ist. Dies spiegelt sich auch in einem sehr niedrigen TEDS Score wieder. Das EDD Modell bildet die Tabelle dagegen bis auf einen „Buchstabendreher“ (PF, wird als PR gelesen) originalgetreu ab.

Fazit

In diesem sehr aktuellen Paper (März 2020) entwickelten die Autoren aus der IBM Research Group Australien ein innovatives Modell, womit es gelingen kann, komplexe Tabellenstrukturen maschinell zu verarbeiten. Ein Ziel der Autoren ist es, das System zukünftig mit neuronalen Netzwerken aus dem Bereich der Table Detection, also dem Lokalisieren von Tabellen in Texten zu erweitern. Auch in der DATEV beschäftigt man sich mit unterschiedlichen und komplexen Tabellenstrukturen. Forschungsarbeiten wie diese treiben den Fortschritt im Bereich der optischen Zeichenerkennung und Verarbeitung weiter voran.
Unsere Reading Group ist für uns eine tolle Möglichkeit, um auch einmal über den Tellerrand hinausblicken zu können und uns über den neuesten Stand der Forschung in Bereichen wie Deep und Machine Learning zu informieren.

Ihr seid ebenso verrückt nach IT, Software und Tech-Themen und habt Lust, Teil unseres Entwickler-Teams zu werden, hier geht´s zu unseren offenen Stellen: https://www.datev.de/web/de/karriere/geschaeftsbereiche/it/.

Photo by Lukas Blazek on Unsplash

--

--

DATEV eG
DATEV TechBlog

DATEV eG steht für qualitativ hochwertige Softwarelösungen und IT-Dienstleistungen für Steuerberater, Wirtschaftsprüfer, Rechtsanwälte und Unternehmen.