Einführung in die Welt der Sprachsynthese

In diesem Workshop ging es darum, wie Sprache an sich und Sprachsynthese am Computer funktioniert, wo die Herausforderungen liegen und inwiefern Sprachsyntheseprogramme im Radio eingesetzt werden können.

Dabei wurden folgende Themen besprochen:

  • Einführung Sprache und Laute
    • Menschliche Artikulation und Prosodie
    • Phonemalphabete (IPA, SAMPA)
  • Sprachsynthese
    • Geschichte, Motivation, Herausforderungen
    • Techniken
      • Formantsynthese (und HMM)
      • Non uniform Unit Selection
      • Diphone
    • Text- to- Speech
      • Festival
      • OpenMARY
      • Txt2pho + MBROLA
  • Praxis
    • Vergleich der verfügbaren deutschen Voices in MARY hinsichtlich ihrer Verständlichkeit, Natürlichkeit, Ausdruck
    • Manipulation des Grundfreqzenzverlaufes (MBROLA singt “Alle meine Entchen”)

Als Fazit kann mensch folgendes festhalten: es gibt mittlerweile brauchbare Sprachsyntheseapplikationen, die einen Text in verständlicher, neutraler Sprache synthetisieren können. Um diese Audioausgabe jedoch nach eigenem Ermessen manipulieren zu können (z.B. für den Einsatz in einem Hörspiel, um dem Synthetisierten mehr Ausdruck, Emotion, Dialekt zu geben etc. ) ist ein weitergehendes Wissen über die akustischen Eigentschaften von Sprache und Prosodie notwendig.

Die Folien zum Workshop.

Links

Praxis: Sprachsyntheseapplikationen

Graphischer PHO-Editor und MBROLA (GraPho): http://www.expressive-speech.net/
MARY: http://mary.dfki.de/ , Onlineanwendung: http://mary.dfki.de:59125/
TTS von Google: http://translate.google.com

Festival: http://www.cstr.ed.ac.uk/projects/festival/
eSpeak: http://espeak.sourceforge.net/
The MBROLA project: http://tcts.fpms.ac.be/synthesis/
TXT2Pho: http://www.sk.uni-bonn.de/forschung/phonetik/sprachsynthese/txt2pho

Sprache: Phonetik und Prosodie

http://de.wikipedia.org/Phonetik
http://de.wikipedia.org/wiki/Phon_%28Linguistik%29
http://de.wikipedia.org/wiki/Prosodie
http://de.wikipedia.org/wiki/Formanten
Phonetik: Pompino-Marschall, B. (2003 ): Einführung in die Phonetik. Berlin: de Gruyter. 2. Aufl.
Prosodie:
Artikulation: http://spzwww.uni-muenster.de/griesha/spw/pho/artorgane.html

Transkrption mit IPA und SAMPA

http://de.wikipedia.org/wiki/Internationales_Phonetisches_Alphabet
http://de.wikipedia.org/wiki/SAMPA
deutsche SAMPA-Referenz:
IPA & SAMPA Symbolik http://www.lfsag.unito.it/ipa/index_en.html
Txt 2 SAMPA und IPA converter: http://familientagebuch.de/rainer/2007/38.html#4

Hintergründe zur Sprachsynthese

http://en.wikipedia.org/wiki/Speech_synthesis
http://de.wikipedia.org/wiki/Wolfgang_von_Kempelen#Die_Sprechmaschine
http://en.wikipedia.org/wiki/Hidden_Markov_model
Vergleich verfügbarer TTS systeme im deutschen (mit Beispielaudios!) http://ttssamples.syntheticspeech.de/deutsch/
HMM-based Speech Synthesis System (HTS) http://hts.sp.nitech.ac.jp/
Building voices: http://www.festvox.org/bsv/

Sami Lemmetty (1999): Review of Speech Synthesis Technology: Master thesis at HELSINKI UNIVERSTY OF TECHNOLOGY
http://www.acoustics.hut.fi/~slemmett/dippa/thesis.pdf

Christian Plahl (2005): Sprachsynthese mit Hidden-Markov-Modellen: Diplomarbeit an der TU Bielefeld
http://aiweb.techfak.uni-bielefeld.de/files/master-theses/Plahl2005-DIP.pdf

Heiga Zen and Tomoki Toda (2005): An Overview of Nitech HMM-based Speech Synthesis System for Blizzard Challenge 2005: Proc. of Interspeech2005 (Eurospeech), pp.93-96
http://festvox.org/blizzard/bc2005/IS052192.PDF

T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken (1996): The MBROLA project: towards a set of high quality speech synthesizers free of use for non commercial purposes : Fourth International Conference on Spoken Language, 1996. ICSLP 96. Proceedings.
http://wagstaff.asel.udel.edu/icslp/cdrom/vol3/920/a920.pdf

M. Schröder & J. Trouvain (2003). The German Text-to-Speech Synthesis System MARY: A Tool for Research, Development and Teaching. International
Journal of Speech Technology, 6, pp. 365-377.
http://mary.dfki.de/documentation/publications/schroeder_trouvain2003.pdf