Text To Speech auf SZ.de

Eike Mücksch
Süddeutsche Zeitung Digitale Medien
3 min readAug 16, 2022

Die Qualität computergenerierter Sprache hat in den letzten Jahren einen deutlichen Sprung nach vorne gemacht. Audio gestützte Assistenzsysteme gibt es im Bereich der Navigation oder als Sprachassistenten aller großen Technologiekonzerne in unseren Smartphones und vielen anderen Geräten.

Der mittlerweile sehr natürliche Klang moderner Sprachsynthese ermöglicht es auch lange Texte mit einem großen Wortschatz automatisiert in Sprache zu wandeln.

Wir haben diese Möglichkeit bei der Süddeutschen Zeitung genutzt, um unseren Leser:innen eine große Vielfalt an Artikeln als Audio bereitzustellen. Dies fördert nicht nur die Inklusion eingeschränkter Personen, sondern erweitert auch für bisherige Leser:innen die Arten, auf welche unsere Inhalte konsumiert werden können.

Anbietervergleich

Es gibt die unterschiedlichsten Anbieter für die Audiosynthese. Wir haben uns einige Dienste angeschaut, um die Qualität des generierten Audios zu vergleichen.

Alle von uns getesteten Anbieter nutzen künstliche neuronale Netze zur Sprachsynthese. Diese Netze wurden mit einer großen Menge menschlicher Stimmen und dazu passenden Texten darauf trainiert, zu einem Text passende Audiodateien zu erzeugen.

Sie unterscheiden sich somit grundlegend von regelbasierten Systemen, in welchen von Menschen gesprochene Wortbausteine zu Wörtern und Sätzen zusammengesetzt werden.

Die Vorteile neuronaler Netze bei der Sprachsynthese sind vor allem eine natürlichere Sprachmelodie und der nahezu unbegrenzte Wortschatz bei einer ausreichend großen Menge an Trainingsdaten.

Beispielaudio der unterschiedlichen Anbieter

Wir haben uns für die neuronale Version von Amazon Polly entschieden. Unserer Meinung nach liefert die durch Polly generierte Sprache die beste Qualität im direkten Vergleich mit den anderen Anbietern. Uns war es besonders wichtig, dass sich unsere Hörer:innen durch eine natürliche Sprachmelodie auf den Inhalt des Artikels konzentrieren können. Unnatürlich lange oder kurze Pausen und häufige fehler bei der Betonung sorgen für unnötige Ablenkung und werden vor allem bei langen Texten zum Problem.

Ein weiterer Vorteil von Amazon Polly ist, dass sich der Service nahtlos in unsere Infrastruktur bei AWS integrieren lässt.

Umsetzung

Wir haben zum Ausführen der nötigen Programmlogik für eine AWS Lambda entschieden. Dieser Ereignisgesteuerte Computing-Service erlaubt es ein Programm nur dann auszuführen, wenn definierte Ereignisse eintreten.

In unserem Fall wird die Logik immer genau dann angestoßen, wenn ein neuer Artikel von unserer Redaktion gespeichert oder ein bereits vorhandener Artikel geändert wird.

Unser Programm überprüft nun, ob der gespeicherte Artikel bereits synthetisiert wurde und stößt gegebenenfalls eine neue Synthese des Inhalts an.

Die Audiodatei zu jedem Artikel speichern wir in einem Cloud-Speicher (AWS S3).

Da wir die Funktion zum Vorlesen bezahlter Artikel nur Abonnent:innen zur Verfügung stellen, und die Antwortzeit unseres Systems bei wiederholten Anfragen auf die gleiche Datei reduzieren wollen (Caching), haben wir den Zugriff auf die Audiodateien über unser CDN (AWS Cloudfront) konfiguriert.

Optimierungen

Um die Leistung und damit auch Kosten unserer Systeme zu reduzieren, überprüfen wir für jeden gespeicherten Artikel zunächst, ob sich der für uns relevante Inhalt geändert hat.

Betreffen die Änderungen lediglich die Metadaten des Artikels oder andere, für die Audiosynthese irrelevante, Bereiche wie zum Beispiel benutzte Bilder brechen wir die Ausführung unseres Programms vorzeitig ab.

Eine zusätzliche Optimierung war möglich, da Änderungen am Inhalt oft nur einzelne Passagen eines Artikels betreffen. Deshalb unterteilen wir den Artikel in mehrere Abschnitte, welche einzeln Synthetisiert werden können. Das Zusammenfügen der entstehenden Audiodateien ist vergleichsweise günstig, wodurch sich dieser zusätzliche Programmschritt rechtfertigt.

Eine detailliertere Technologische Beschreibung unserer Lösung gibt es als Beitrag im AWS Machine Learning Blog https://aws.amazon.com/de/blogs/machine-learning/how-suddeutsche-zeitung-optimized-their-audio-narration-process-with-amazon-polly/

Fazit

Durch die einfache Integration von Amazon Polly in unsere Systemlandschaft konnten wir Text To Speech schnell in einer ersten Version testen und nach verschiedenen Optimierungen für viele unserer Leser:innen zur Verfügung stellen.

Wir haben eine Menge positives Feedback erhalten und konnten durch das Bereitstellen von Hörproben in den ersten 2 Monaten nach Livegang c.a. 200 zusätzliche Nutzer:innen zum Kauf eines Abos bewegen.

Seit dem Release der ersten Version im Oktober 2021 haben wir die Funktion auf Basis der in Umfragen genannten Feature Wünsche stetig weiterentwickelt. So ist es nun z.B. auch möglich, die Vorlesegeschwindigkeit an die eigenen Wünsche anzupassen.

Heute ist der Play-Button ein fester Bestandteil des Artikels auf SZ.de und über 7000 Leser:innen nutzen die Funktion jede Woche.

--

--

Eike Mücksch
Süddeutsche Zeitung Digitale Medien

Software Developer 🏠Leipzig 👨‍💻https://www.sueddeutsche.de