Image for post
Image for post

Irrungen, Wirrungen mit Natural Language Processing

Tizian Kronsbein
Oct 9, 2018 · 6 min read

Worum geht es in Irrungen, Wirrungen?

Image for post
Image for post
By Carl Breitbach (1833–1904) (zeno.org) [Public domain], via Wikimedia Commons

Was ist Natural Language Processing (NLP)?

Durch Natural Language Processing (NLP) versucht man in der Datenanalyse natürliche Sprache zu erfassen und mit der Hilfe von Algorithmen zu verarbeiten.

Herausforderungen bei NLP

Dabei sei eingehend erwähnt, dass es einige Herausforderungen bei der Analyse von Text gibt, die dieses Feld deutlich schwieriger machen als bei “normalen” Daten.

  • Die Reihenfolge von Worten kann mal über die Bedeutung eines Satzes entscheiden und mal nicht.
  • Der Kontext oder Informationen, die sich zum Beispiel aus Insider-Informationen ergeben kann oft nicht erkannt werden.

NLP Experiment an Irrungen, Wirrungen

Zunächst sei gesagt, dass wir lediglich eine simple Analyse des Rohtext des Romans vorgenommen haben. Hierfür muss der Text entsprechend vorbereitet werden.

Textvorbereitungen

Vollständigkeitshalber sei jedoch gesagt, dass elementare Schritte zum Preprocessing das Entfernen von Satzzeichen und sogenannten Stop words sind. Stop words sind Worte, die sehr häufig auftreten und daher für gewöhnlich keine hohe Relevanz zur Bestimmung des Inhalts eines Dokumentes haben. Außerdem haben wir zum Beispiel die Satzzeichen entfernt, sowie Großschreibung auf Kleinschreibung reduziert. Es können noch weitere Schritte vorgenommen werden wie das Reduzieren von

Häufigkeit eines Wortes

Nach dem Entfernen der Stop words, haben wir uns angeschaut welche Worte nun am häufigsten vorkommen.

Image for post
Image for post
Häufigkeit einzelner Worte im Text von Irrungen, Wirrungen von Theordor Fontane

Die Stimmung im Buch — Eine Sentiment Analyse

Als Nächstes wollten wir bestimmen, ob das Buch eher positiv oder negativ geschrieben ist. Teile der nltk Library ermöglicht es, den Text nach negativen oder positiven Worten zu durchsuchen.

Image for post
Image for post
Sentiment Analyse der Kapitel in Theodor Fontanes Irrungen Wirrungen

NLP: was ist der Business Case dahinter?

Wie bereits vorab erwähnt, ist dies eine sehr einfache Analyse und man kann noch viel tiefer in den Text eintauchen. Vielmehr drängt sich die Frage auf, wofür man solche Analysen überhaupt gebrauchen kann. Dafür gibt es verschiedene Business Cases, die für Verleger und Unternehmen aus dem E-Commerce besonders interessant sein können.

  1. Eine weitere Möglichkeit ist die Text2Cassification Methode. Hier kann aus Produktbeschreibungen direkt eine Produktkategorie erstellt werden oder gegengeprüft werden.
  2. Text2Numbers — Aus dem Text eine Zahl erstellen. Dies ist ein eher abstrakter Anwendungsfall, dennoch könnte man beispielsweise den Preis eines Fahrzeugs durch dessen Beschreibung ermitteln bzw. schätzen.
  3. Clusteranalyse von Lesern — Amazon ist bereits sehr stark, wenn es um das Empfehlen von ähnlichen Büchern geht. Dort wird jedoch überwiegend ein Algorithmus genutzt, der die Kaufhistorie von Millionen von Usern checked und dann unter der berühmten “Andere Kunden kauften auch…”-Kategorie empfohlen. Eine weitere Möglichkeit durch NLP, speziell für Verlage, wäre das Analysieren von Schreibstilen, Wortwahl oder ähnlichen Charakteristika von Schriftstellern, um eine solche Empfehlung zu machen.

Referenzen

[1] Wikipedia.org, Irrungen,Wirrungen, https://de.wikipedia.org/wiki/Irrungen,_Wirrungen (2018)

dlighted

Enjoy working with data!

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch

Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore

Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store