Der Begriff „Text-zu-Sprache“ (auch TTS für „Text-to-Speech“) bezeichnet die automatisierte Umwandlung von geschriebenem Text in natürlich klingende, synthetisch erzeugte Sprache. Die Technologie ermöglicht es, Inhalte akustisch wiederzugeben – etwa zur Barrierefreiheit, für automatisierte Sprachausgaben in Software oder für multimediale Inhalte. Text-zu-Sprache-Systeme nutzen dabei Spracherkennungsregeln, künstliche Intelligenz und zunehmend neuronale Netze, um die Aussprache möglichst natürlich wirken zu lassen.
Sprachausgabe in Echtzeit: Umwandlung von eingegebenem oder gespeichertem Text in gesprochene Sprache direkt während der Nutzung.
Mehrsprachige Unterstützung: Auswahl verschiedener Sprachen und regionaler Akzente für die Ausgabe.
Stimmenauswahl: Nutzung verschiedener synthetischer Stimmen, z. B. männlich/weiblich, natürlich/künstlich betont.
Stimmanpassung: Möglichkeit, Tonhöhe, Sprechgeschwindigkeit und Lautstärke individuell einzustellen.
SSML-Unterstützung (Speech Synthesis Markup Language): Feinanpassung von Betonung, Pausen, Lautstärke oder Aussprache im Text.
Batch-Verarbeitung: Umwandlung großer Textmengen in Audiodateien zur späteren Nutzung.
Exportfunktionen: Ausgabe der Sprachergebnisse als Audioformate wie MP3 oder WAV.
Barrierefreiheit: Integration in Anwendungen zur Unterstützung von Menschen mit Seh- oder Lesebehinderungen.
API-Schnittstellen: Integration der TTS-Funktionalität in andere Softwareanwendungen via Programmierschnittstellen.
Ein E-Learning-Tool liest Schulungsinhalte in verschiedenen Sprachen vor.
Ein Chatbot beantwortet Kundenanfragen mit gesprochener Sprache.
Ein Assistenzsystem für Blinde liest Bildschirminhalte vor.
Eine Navigationssoftware gibt Richtungsanweisungen akustisch aus.
Ein Unternehmen erzeugt automatisch Produktbeschreibungen als Audio für seine Webseite oder für Voice-Commerce-Kanäle.