Einführung in die Welt der Sprachsynthese

In diesem Workshop ging es darum, wie Sprache an sich und Sprachsynthese am Computer funktioniert, wo die Herausforderungen liegen und inwiefern Sprachsyntheseprogramme im Radio eingesetzt werden können.

Dabei wurden folgende Themen besprochen:

Einführung Sprache und Laute

Menschliche Artikulation und Prosodie
Phonemalphabete (IPA, SAMPA)

Sprachsynthese

Geschichte, Motivation, Herausforderungen
Techniken

Formantsynthese (und HMM)
Non uniform Unit Selection
Diphone

Text- to- Speech

Festival
OpenMARY
Txt2pho + MBROLA

Praxis

Vergleich der verfügbaren deutschen Voices in MARY hinsichtlich ihrer Verständlichkeit, Natürlichkeit, Ausdruck
Manipulation des Grundfreqzenzverlaufes (MBROLA singt „Alle meine Entchen“)

Als Fazit kann mensch folgendes festhalten: es gibt mittlerweile brauchbare Sprachsyntheseapplikationen, die einen Text in verständlicher, neutraler Sprache synthetisieren können. Um diese Audioausgabe jedoch nach eigenem Ermessen manipulieren zu können (z.B. für den Einsatz in einem Hörspiel, um dem Synthetisierten mehr Ausdruck, Emotion, Dialekt zu geben etc. ) ist ein weitergehendes Wissen über die akustischen Eigentschaften von Sprache und Prosodie notwendig.

Die Folien zum Workshop.

Links

Sami Lemmetty (1999): Review of Speech Synthesis Technology: Master thesis at HELSINKI UNIVERSTY OF TECHNOLOGY
http://www.acoustics.hut.fi/~slemmett/dippa/thesis.pdf

Christian Plahl (2005): Sprachsynthese mit Hidden-Markov-Modellen: Diplomarbeit an der TU Bielefeld
http://aiweb.techfak.uni-bielefeld.de/files/master-theses/Plahl2005-DIP.pdf

Heiga Zen and Tomoki Toda (2005): An Overview of Nitech HMM-based Speech Synthesis System for Blizzard Challenge 2005: Proc. of Interspeech2005 (Eurospeech), pp.93-96
http://festvox.org/blizzard/bc2005/IS052192.PDF

T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken (1996): The MBROLA project: towards a set of high quality speech synthesizers free of use for non commercial purposes : Fourth International Conference on Spoken Language, 1996. ICSLP 96. Proceedings.
http://wagstaff.asel.udel.edu/icslp/cdrom/vol3/920/a920.pdf

M. Schröder & J. Trouvain (2003). The German Text-to-Speech Synthesis System MARY: A Tool for Research, Development and Teaching. International
Journal of Speech Technology, 6, pp. 365-377.
http://mary.dfki.de/documentation/publications/schroeder_trouvain2003.pdf

Einführung in die Welt der Sprachsynthese

Links

Praxis: Sprachsyntheseapplikationen

Sprache: Phonetik und Prosodie

Transkrption mit IPA und SAMPA

Hintergründe zur Sprachsynthese