Debattenkultur im Netz. Kann man mit Text-Analytics die Schreihälse stoppen?

Die Debattenkultur im Netz ist aus den Fugen geraten. Die Kommentarfunktionen auf Nachrichtenseiten sind voll von subjektiven, polarisierenden und zum Teil hasserfüllten Beiträgen. Mit aufwändiger Moderation filtern Redaktionen die schlimmsten Beiträge heraus, um die Debatte fortzuführen — und werden als Zensoren beschimpft. Andere Redaktionen haben kapituliert und schränken unter kontroversen Artikeln (Flüchtlinge, Genderthemen, Alternativmedizin, etc.) die Kommentarfunktion ein. Gibt es eine Alternative zum Abschalten? Welchen Beitrag kann die automatische Analyse von Kommentartexten leisten?

Schreihälse im Internet gibt es schon eine ganze Weile. Impfgegner, Verschwörungstheoretiker und andere nutzen das Netz und soziale Medien, um sich zu vernetzen und ihre Ideologie zu verbreiten — mit wenig Verständnis für Widerspruch. Mit Beginn der Flüchtlingskrise haben die Netzdebatten um Ausländer und Muslime aber alles Vorherige in den Schatten gestellt. Es ist bekannt, dass es viele Hasskommentare zum Thema Flüchtlinge gibt — meistens ohne Konsequenzen für diejenigen, die den Hass geäußert haben. Wohl aber mit Auswirkungen für die Diskussion selbst, für Journalisten und für andere Diskussionsteilnehmer.

Warum es so nicht weiter gehen kann

Worin besteht also das Problem? Auf der einen Seite gibt es rechtliche Probleme, weil bei strafbaren Äußerungen nicht nur die Kommentatoren juristische Konsequenzen zu fürchten haben, sondern auch die Seiten und Plattformen, auf denen die Kommentare stehen. Sobald ein Forenbetreiber Kenntnis über strafbare Inhalte hat (oder durch eine Abmahnung in Kenntnis gesetzt wird) beginnt die Haftungsverantwortung. Doch die vielleicht noch schwerer wiegende Konsequenz ist, dass es die Debatte selbst verändert. Es ist für alle Beteiligten schwer, Hasskommentare an sich abperlen zu lassen und einfach schulterzuckend zu denken: Das ist halt ein Idiot. Viele Journalisten haben längst aufgehört, die Kommentare unter ihren eigenen Artikeln lesen.

Dass Hasskommentare Wirkung entfalten können, ist wahrscheinlich. Hatespeech setzt die sogenannte Schweigespirale in Gang. Das bedeutet, dass Leute aus Angst vor Ablehnung ungern Meinungen aussprechen, die der Mehrheitsmeinung widersprechen. Sie tun dies umso mehr, je stärker der Gegensatz ist. Je mehr und je aggressiver also flüchtlingsfeindliche Kommentare abgeben werden, desto mehr verstummen die gemäßigten Stimmen. Dabei gibt es nicht nur einzelne Trolle, die nur auf Spaß aus sind, sondern gezielte Propaganda- bzw. PR-Interventionen. Organisierte Kommentar-Kampagnen können so die Themen der täglichen Berichterstattung beeinflussen. Journalisten greifen das dann auf, und so kommen die Themen auch in die echten Medien und erreichen damit eine höhere Präsenz.

Natürlich findet diese Beeinflussung auch ohne Kommentare im Netz statt. PR-Macher beeinflussen die Medien seit Jahren — auch schon im analogen Zeitalter in Form von Leserbrief-Kampagnen. Durch das Internet ist es nur einfacher und automatisierbar geworden. Die gezielten Kampagnen haben zur Folge, dass sich Leute in Foren mehr und mehr misstrauen. Steckt dahinter wirklich ein Mensch oder steckt vielleicht eine Kampagne durch PR-Agenten, Fake-Accounts oder Social Bots dahinter? Die Folge: Man darf sich mittlerweile die Frage stellen, wie viel Prozent der Kommentare unter Nachrichtenartikeln überhaupt noch authentisch sind.

Reaktionsmöglichkeiten für Forenbetreiber

Verlage, Redaktionen und andere Webseitenbetreiber sind derzeit uneins, welche Gegenreaktion am geeignetsten ist. Natürlich kann man die Kommentarfunktion einfach ausstellen. Das spart Zeit, aber erstens gibt man dann klein bei, und zweitens gibt es ja auch eine Reihe von geistreichen, lustigen und erhellenden Kommentare, die man so vermissen würde. Drittens: Wenn Medien auf die Kommentardiskussion verzichten, würde diese nicht aufhören sondern sich vermutlich auf alternative Plattformen verlagern — vor allem soziale Netzwerke. Die Medien würden ihre Chance verspielen, die Debatte zu steuern und zu beeinflussen.

Viele Leute empfehlen daher Counterspeech: Also aktiv mit Fakten und Argumenten dagegen halten statt mit Gegenhass zu entgegnen oder immer mehr Kommentare zu löschen. Eigentlich eine gute Idee, aber wie reagiert man auf Leute, die nur auf Beleidigung aus sind? Wie lange hält man durch? Will man das auch weitermachen, wenn klar ist, dass der andere für sachliche Argumente nicht empfänglich ist? Das kann extrem anstrengend werden. Zu bedenken ist auch, dass mit jeder Counterspeech Hasskommentaren zusätzliche Aufmerksamkeit verliehen wird. Spätestens wenn man es mit Kampagnen und Social Bots zu tun hat, ist es für Einzelne praktisch unmöglich die Kommentare zu kontern. Die automatisierten Methoden der Schreihälse übernehmen, d.h. das Netz mit Counterspeech zu fluten, ist sicher keine Lösung.

Daher ist die beste Lösung weiterhin, die Kommentare zu filtern bzw. anhand einer klar artikulierten Forum-Netiquette zu moderieren. Zeitungsleser haben längst akzeptiert, dass nicht alle Beiträge veröffentlicht werden können und Löschungen notwendig sind. Von Zensur kann auch nicht die Rede sein. Es geht nicht darum, ein Thema vorzugeben, andere Meinungen auszuschließen oder die Diskussion bewusst in eine Richtung zu lenken. Stattdessen wird verhindert, dass toxische Inhalte die Diskussion torpedieren oder Meinungskartelle die Diskussion gezielt umleiten. Aber alle Kommentare zu lesen und dann freizuschalten kostet Zeit — viel Zeit. Forenbetreiber müssen sich zum Teil mit Tausenden von Kommentaren täglich auseinander setzen. Der Guardian spricht beispielsweise von 70.000 am Tag.

Schlaue Algorithmen als notwendige Hilfe

Die Erkennung von toxischen Inhalten (z.B. Hass) in Kommentaren mit Hilfe von Text Analytics ist schwierig, aber nicht komplett unmöglich. Text Analytics (alternativ: Text Mining) Verfahren versuchen Zusammenhänge und Abhängigkeiten in natürlicher Sprache zu finden. Zur Entdeckung von Emotionen in Texten kommen Techniken des Natural Language Processing und Supervised Learning zum Einsatz.

Natural Language Processing beschreibt Methoden, die Computern die Verarbeitung und das Verständnis von natürlicher Sprache ermöglichen. Zur Erkennung von emotionalen Inhalten in Texten gibt es zum Beispiel eine Reihe von Wörterbüchern, die es ermöglichen, einzelnen Wörtern einen Wert für eine bestimmte Emotion (z.B. Hass) zuzuordnen. Um diese Wörterbücher zu erstellen, ist man allerdings auf menschliche Hilfe angewiesen. Denn beim Erstellen muss der Algorithmus zunächst lernen, welche Kommentare Hass enthalten und welche nicht. Bezogen auf Hasskommentare bedeutet dies, dass es eine Zielvariable geben muss (Hass ja/nein), nach der einzelne Kommentare entsprechend bewertet wurden — und zwar für möglichst viele Kommentare. Mit Hilfe der Zielvariable lassen sich dann Rückschlüsse auf einzelne Wörter berechnen. Ein solches Verfahren wird als Supervised Learning bezeichnet.

Die Effizienz von Text-Mining mit Hilfe von Emotions-Wörterbüchern ist allerdings begrenzt. Erstens ist die Erstellung der Wörterbücher schwierig. Gute Wörterbücher enthalten mehrere tausend Einträge, was eine hohe Anzahl von Hassbewertungen erfordert. Zwar kann man versuchen dies über einen Crowdsourcing-Ansatz realisieren, aber dennoch muss das initiale Wörterbuch meistens erweitert werden. Zweitens arbeiteten Wörterbücher zumeist mit langen Wortlisten („Bag of Words“ — Modell) und berücksichtigen so Abhängigkeiten zwischen Wörtern nur unzureichend. Auch die Position der Wörter im Satz oder Abschnitt spielt nur eine untergeordnete Rolle.

Um Relationen zwischen Wörtern besser zu berücksichtigen, kombinieren immer mehr Forscher die genannten Methoden mit Deep Learning Ansätzen. Vor einigen Wochen hatte die Technik bereits für Aufmerksamkeit gesorgt, als die auf Deep Learning basierende Software AlphaGo den weltbesten Go-Spieler klar besiegte. Eine wesentliche Eigenschaft von Deep Learning ist es, dass Computer selbstständig in der Lage sind, Satzstrukturen, Wortzusammenhänge und Wortfolgen zu erkennen. Für die Texterkennung werden auf diese Weise in hierarchischer Form sowohl Buchstaben, Wörter, Wortgruppen, Nebensätze, Sätze, als auch ganze Absätze berücksichtigt. Neben dieser Methodik gibt es noch viele weitere linguistische Eigenschaften — von der Wortlänge bis zur Anzahl der Ausrufezeichen — die für die Einschätzung eines Kommentars hilfreich sein können. Welche Methode am besten funktioniert, ist schwierig vorherzusagen. Häufig werden verschiedene Ansätze daher per „Try and Error“ ausprobiert und entsprechend gewählt.

Die Algorithmen werden idealerweise mit einem sehr großen Textkorpus trainiert, z.B. dem Inhalt sämtlicher Wikipedia-Artikel. Lange Zeit war es aufgrund dieser großen Textmengen schwierig, die Modelle in vertretbarer Zeit mit Lerndaten zu trainieren. Vor allem durch bessere Möglichkeiten der parallelen Verarbeitung auf mehreren Prozessoren und geringere Hardwarekosten ist dies inzwischen um ein Vielfaches schneller möglich. Die bessere Einsatzfähigkeit nutzen Forscher und Tech-Unternehmen derzeit intensiv. Weltweit arbeiten sie daran, die zugrunde liegenden Algorithmen stetig zu verbessern. Einer der bekanntesten Ansätze ist das Word2Vec Verfahren, mit dem es möglich ist erstaunlich intuitive Zusammenhänge zwischen Wörtern für Computer erfassbar machen. Ein ambitioniertes Projekt in diesem Zusammenhang ist das Coral Project, eine Kooperation der New York Times, Washington Post und der Mozilla Foundation. Das Projekt verfolgt das Ziel, die Qualität von Netzdebatten zu erhöhen.

Text-Mining funktioniert immer besser

Dass automatisierte Text-Mining Verfahren funktionieren können, zeigen viele Anwendungsfälle. Verfahren, die Deep Learning mit Natural Language Processing kombinieren erzielen regelmäßig gute Vorhersagen (z.B. für die Vorhersage von Produkt-Bewertungen) mit Fehlerraten unter fünf Prozent. Für den spezifischen Fall der Analyse von Kommentaren in Online-Debatten gibt es weniger belastbare Zahlen. Eine Studie amerikanischer Forscher aus den Yahoo-Labs zur automatischen Erkennung von beleidigenden Inhalten erreichte Trefferquoten von bis zu 90 Prozent. Die Forscher setzten verschiedene linguistische Verfahren ein, unter anderem Buchstabenfolgen und Word2Vec. Laut einem Bericht im Handelsblatt sind bei der Zeitung Die Welt Text-Mining Algorithmen bereits im Praxiseinsatz, mit einer Fehlerquote von unter fünf Prozent.

Es ist daher absolut realistisch, dass Text-Mining Journalisten und Forenbetreiber bei der Erkennung von fragwürdigen Inhalten wesentlich entlasten kann. Doch würde dies die Debattenkultur im Netz retten? Zwar könnten Hatespeech und Schreihälse eingedämmt werden, aber die Erkennung von Trollen ist eine zusätzliche Herausforderung. Sprich: Es mag nicht immer nur darum gehen, einfach Hass herauszufiltern, sondern darum, die Qualität der Debatte im Netz generell zu verbessern.

Ein wichtiger Beitrag wäre die bessere Erkennung von Propaganda-Beiträgen. Doch die beste Propaganda war schon immer die, die nicht zu erkennen ist — auch automatisierte Text-Mining Verfahren stoßen dort an ihre Grenzen. Rein auf Textinhalt basierende Verfahren scheinen nicht ausreichend. Stattdessen müssen wahrscheinlich weitere Metadaten über die Kommentierer einbezogen werden. Hier sind Softwareentwickler auf die Zusammenarbeit mit Forenbetreibern angewiesen, die entsprechende Daten bereitstellen müssen. Hilfreich wäre vermutlich auch eine übergreifende Zusammenarbeit, ähnlich zu Spam-Absenderlisten für E-Mails. Aber wer weiß schon wofür Deep Learning in den nächsten Jahren noch alles gut ist? Ein Beitrag zur Stärkung der Debattenkultur mit weniger Schreihälsen erscheint jedenfalls schon heute plausibel.


Dieser Text rekapituliert den Inhalt der Session „Debattenkultur im Netz. Kann man mit Analytics die Schreihälse stoppen?“, am 02.05.2016 auf der re:publica 2016. Die Session haben Julia Offe und ich gemeinsam organisiert. Weitere Informationen zum zugrunde liegenden Forschungsprojekt an der WWU Münster finden sich unter http://hatemining.uni-muenster.de.

➤➤ Folge Medium auf Deutsch auf Twitter | Facebook | RSS. Du möchtest selbst auf Medium schreiben? Klicke hier, um mehr zu Medium Deutsch und dem Schreiben auf Medium zu erfahren!