In diesem Workshop ging es darum, wie Sprache an sich und Sprachsynthese am Computer funktioniert, wo die Herausforderungen liegen und inwiefern Sprachsyntheseprogramme im Radio eingesetzt werden können.
Dabei wurden folgende Themen besprochen:
- Einführung Sprache und Laute
- Menschliche Artikulation und Prosodie
- Phonemalphabete (IPA, SAMPA)
- Sprachsynthese
- Geschichte, Motivation, Herausforderungen
- Techniken
- Formantsynthese (und HMM)
- Non uniform Unit Selection
- Diphone
- Text- to- Speech
- Festival
- OpenMARY
- Txt2pho + MBROLA
- Praxis
- Vergleich der verfügbaren deutschen Voices in MARY hinsichtlich ihrer Verständlichkeit, Natürlichkeit, Ausdruck
- Manipulation des Grundfreqzenzverlaufes (MBROLA singt „Alle meine Entchen“)
Als Fazit kann mensch folgendes festhalten: es gibt mittlerweile brauchbare Sprachsyntheseapplikationen, die einen Text in verständlicher, neutraler Sprache synthetisieren können. Um diese Audioausgabe jedoch nach eigenem Ermessen manipulieren zu können (z.B. für den Einsatz in einem Hörspiel, um dem Synthetisierten mehr Ausdruck, Emotion, Dialekt zu geben etc. ) ist ein weitergehendes Wissen über die akustischen Eigentschaften von Sprache und Prosodie notwendig.
Links
Praxis: Sprachsyntheseapplikationen
Graphischer PHO-Editor und MBROLA (GraPho): http://www.expressive-speech.net/
MARY: http://mary.dfki.de/ , Onlineanwendung: http://mary.dfki.de:59125/
TTS von Google: http://translate.google.com
Festival: http://www.cstr.ed.ac.uk/projects/festival/
eSpeak: http://espeak.sourceforge.net/
The MBROLA project: http://tcts.fpms.ac.be/synthesis/
TXT2Pho: http://www.sk.uni-bonn.de/forschung/phonetik/sprachsynthese/txt2pho
Sprache: Phonetik und Prosodie
http://de.wikipedia.org/Phonetik
http://de.wikipedia.org/wiki/Phon_%28Linguistik%29
http://de.wikipedia.org/wiki/Prosodie
http://de.wikipedia.org/wiki/Formanten
Phonetik: Pompino-Marschall, B. (2003 ): Einführung in die Phonetik. Berlin: de Gruyter. 2. Aufl.
Prosodie:
Artikulation: http://spzwww.uni-muenster.de/griesha/spw/pho/artorgane.html
Transkrption mit IPA und SAMPA
http://de.wikipedia.org/wiki/Internationales_Phonetisches_Alphabet
http://de.wikipedia.org/wiki/SAMPA
deutsche SAMPA-Referenz:
IPA & SAMPA Symbolik http://www.lfsag.unito.it/ipa/index_en.html
Txt 2 SAMPA und IPA converter: http://familientagebuch.de/rainer/2007/38.html#4
Hintergründe zur Sprachsynthese
http://en.wikipedia.org/wiki/Speech_synthesis
http://de.wikipedia.org/wiki/Wolfgang_von_Kempelen#Die_Sprechmaschine
http://en.wikipedia.org/wiki/Hidden_Markov_model
Vergleich verfügbarer TTS systeme im deutschen (mit Beispielaudios!) http://ttssamples.syntheticspeech.de/deutsch/
HMM-based Speech Synthesis System (HTS) http://hts.sp.nitech.ac.jp/
Building voices: http://www.festvox.org/bsv/
Sami Lemmetty (1999): Review of Speech Synthesis Technology: Master thesis at HELSINKI UNIVERSTY OF TECHNOLOGY
http://www.acoustics.hut.fi/~slemmett/dippa/thesis.pdf
Christian Plahl (2005): Sprachsynthese mit Hidden-Markov-Modellen: Diplomarbeit an der TU Bielefeld
http://aiweb.techfak.uni-bielefeld.de/files/master-theses/Plahl2005-DIP.pdf
Heiga Zen and Tomoki Toda (2005): An Overview of Nitech HMM-based Speech Synthesis System for Blizzard Challenge 2005: Proc. of Interspeech2005 (Eurospeech), pp.93-96
http://festvox.org/blizzard/bc2005/IS052192.PDF
T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken (1996): The MBROLA project: towards a set of high quality speech synthesizers free of use for non commercial purposes : Fourth International Conference on Spoken Language, 1996. ICSLP 96. Proceedings.
http://wagstaff.asel.udel.edu/icslp/cdrom/vol3/920/a920.pdf
M. Schröder & J. Trouvain (2003). The German Text-to-Speech Synthesis System MARY: A Tool for Research, Development and Teaching. International
Journal of Speech Technology, 6, pp. 365-377.
http://mary.dfki.de/documentation/publications/schroeder_trouvain2003.pdf