PROSODINS MEKANIK talande maskiner och maskinellt tal Staffan Larsson April 2003 ”Mitt Hjärtas Melodi” Översikt • Talande maskiner – Talsyntes • • • • Källa-filter-modellen Formantsyntes Linjär prediktion Formantsyntes och sång – Emotionell prosodi i formantsyntes • Maskinellt tal – – – – – Mekaniska strukturer Åke Hodell: General Bussig, Igevär Steve Reich: Different Trains Charles Dodge: Speech Songs Med mera Grunder • Övertoner (harmoniska) – Ett harmoniskt ljud med grundfrekvens F har övertoner med frekvens 2F, 3F, … • Filter – Ändrar amplituden hos övertoner – Resonansfilter/bandpassfilter: förstärker övertoner kring en viss frekvens • Sampling – Diskretisering i tid; indelning i ”frames” • Kvantisering – Diskretisering av varje tidsutsnitt Talande maskiner Text till tal En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform Talsyntes • Källa-filter-modellen F0 PITCH-PULSE GENERATOR AMP RESONATION SYSTEM (FILTER) SPEECH NOISE GENERATOR • F0 modellerar glottis; en övertonsrik grundton • Filtret modellerar munhålan Talsyntes forts. • Filtermodeller – Formantsyntes – Linear Predictive Coding (LPC) • Syntesmetoder – Regelbaserad: baserat på teori implementerad i regelsystem – Analysbaserad: baserad på inspelat tal (vanligtvis samplat) • Resultatet av analysen är en uppsättning dynamiska parametrar Formantsyntes • Akustisk modell – Filtret analyseras som ett antal formanter, F1-F4 – Normalt varieras bara F1 och F2; resten är statiska • Formanterna modelleras av bandpassfilter med variabel frekvens – Parallell- eller seriekopplade • Vokaler definieras av värden på formantfrekvenserna • Vissa konsonanter kan modelleras som lokuspunkter – Andra konsonanter modelleras som brus, (”s”, ”f”) Tidiga exempel på talsyntes • Bell labs (1950) – forskning om analys och syntes av tal i syfte att minimera mängden information som skickas t ex i en telefonledning • Vocoder – Analysera tal som akustiska parametrar • F0/noise • 10 bandpassfilter med variabel amplitud – Använd dessa parametrar för att driva syntes som approximerar originalet • Voder * – Manuell kontroll av parametrar • Pattern Playback * – Parametrar styrs av spektrogramläsare OVE I • Oratis Verbis Electris – Gunnar Fant – Svensk vokalformantsyntes från 50-talet – utvecklades främst i pedagogiskt syfte, men kan möjligen även ses som ett mellanting mellan musikinstrument och talmaskin. • Fyra seriekopplade bandpassfilter – F0, F1 och F2 styrs manuellt • Demo * – Analog – Digital Ove II Linjär prediktion • Artikulatorisk modell – Filtret modellerar munhålan, modellerad som en tub med ett antal cylindriska sektioner av olika längd och diameter • Filter: ett ”all-pole” filter • Predicera nästa sampel baserat på viktad summa av föregående samples • Mer realistisk återgivning – MEN svårare att kontrollera parametrar, t ex F0; filtret är instabilt Regelbaserad vs. Analysbaserad syntes • Regelbaserad: regler för övergångar mellan fonem – Formant: regler för formantövergångar, lokusteori (OVE II) – LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)* • Analysbaserad: sampling och analys av mänskligt tal – Formant: formantdetektion – LPC: den metod som numera är vanligast • Manuell syntes – Ove, VODER Flera talsyntessystem • DECtalk (1980-) * – Baserad på KlattTalk (formantsyntes) – Formanter, lokusregler – Flera olika röster (Klatt, arkiv D) • Speak and Spell (1980) – Linjär prediktion Emotionell prosodi i formantsystes • Formantsyntes har även använts i forskning på prosodins roll i uttryckandet av emotioner • Janet Cahn – The Generation of Affect in Synthesized Speech – Affect Editor (program) • Grundantagandern – Affektinformation är i stort sett oberoende av lexikal information – Emotioners effekt på talsignalen kan kvantifieras Tidigare forskning… • …om akustiska korrelat till emotioner – Sporadiskt sedan 40-talet – Primära parametrar: F0 och rytm • Dessa parametrar kan kontrolleras i syntes • Fysiologiska förklaringar (Williams & Stevens 1981) – Sympatiska(?) nervsystemet aktiveras (rädsla, ilska, glädje) > högre blodtryck och puls > högljutt, snabbt tal med hög frekvensenergi – Paraympatiska nervsystemet aktiveras (uttråkadhet, sorg) > lägre blodtryck och puls > långsamt tal med låg tonhöjd och frekvensenergi Alternativa representationer • Generativ modell – Utgår från talarens mentala tillstånd • Akustisk modell – Utgår från den akustiska signalen som den uppfattas av åhöraren – En uppsättning parametrar som motsvarar talsignalens emotionella korrelat • Den förra är teoretiskt mer intressant, men den andra är enklare – Lättare att kvantifiera och utvärdera – Vi vet mer om akustiska än mentala korrelat Affektparametrar • Fyra grupper – – – – Tonhöjd (pitch): egenskaper hosF0 Timing: rytm och talhastighet Röstkvalitet Artikulation • Tonhöjd och timing är även egenskaper hos ord och fraser • Ej absolut indelning • Parametrar har värden mellan –10 och 10; 0 är neutral Tonhöjdsparametrar • Accent shape: the rate of F0 change for any pich accent – Pitch accent: distinctive pitch applied to the lexically stressed syllable of a word such that the word as a who is percieved as reciveving sentential stress • Average pitch: average F0 relative to speaker’s normal pitch • Countour slope: overall trend of pitch range (expanding, contracting or level) • Final lowering: terminal pitch contour • Pitch range: range of F0 variation • Reference line Timingparametrar • Fluent pauses: frequency of pausing between syntactic or semantic units • Hesitation pauses: frequency of pausing within syntactic or semantic units • Speech rate • Stress frequency: ratio of stressed (pitch accented) to stressable (potentially pitch accented) words Röstkvalitetsparametrar • Breathiness: amount of frication noises co-present with nonfricatives • Brilliance: ratio of low to high frequency energy • Laryngearization: narrow and irregular subglottal pulse; ”creakiness” • Loudness: percieved loudness Artikulationsparametrar • Precision: degree of slurring or enunciation Affect Editor • Akustisk beskrivning av emotionellt tal > syntetiskt expressivt tal • Syntes: DECtalk3 – Stor grad av kontroll över prosodi och röstkvalitet • Mappning – från akustiska parametrar + text (annoterad med intonation och ordklassinformation) – till syntesens inställningar + fonologisk representation >ghostview Exempel • http://xenia.media.mit.edu/~cahn/emot-speech.html • Stimuli för experiment Formantsyntes av sång (Dodge) • Kräver mer komplex modell av munhålan (mer komplext filter) • Interaktion mellan glottis och munhåla • ”Sångformanten” – Lägre frekvens på F4 och F5 än i tal – F4 och F5 ligger nära varandra (2500-3500 Hz) Sångsyntes: tidiga exempel • Bell labs (1961) – 1961: Max Mathews (with the assistance of a number of technicians at Bell Labs) made a computer sing "Bicycle Built for Two." • DAVO (1958) * – Georg Rosen, MIT • Charles Dodge (mer senare) Mekaniskt tal Mekaniska strukturer (Manovich) • Mekanisering av media: diskretisering – Sampling – Kvantisering • Möjliggör mekaniska operationer – – – – Upprepning, loopning Utsträckning i tid Gradvis modifiering / modulering Överlagring (”compositing”) • Har även använts inom ljudkonst och musik ”Cross-synthesis” (Dodge) • Analys – manipulation – syntes – Tal samplas och analyseras som parametrar som kodas digitalt (vanligtvis LPC) – Valda parametrar manipuleras – Återsyntes med manipulerade parametrar • Vanliga operationer – Kopiera parametrar från en sekvens till en annan; skapa repetitioner – Interpolera värdet av en given parameter för en sekvens (värde 1 -> värde 2) – Förläng en sekvens i tid – Ändra värdet på en parameter i en sekvens till ett fixt värde – Öka värdet på en parameter i en sekvens till ett fixt värde Ljudkonst och tal • ”Konkret poesi” – Utgångspunkten är talets fysiska egenskaper, snarare än innehållet – I Sverige: Fylkingen (Sten Hansson, Ilmar Laaban, Åke Hodell mfl) • EMS, Stockholm – 1960-tal – En av världens mest avancerade ljudstudios (ryms numera på en billig PC) – Ej digital sampling, men analog teknik med linkande möjligheter; dock mycket arbetsamt Åke Hodell • General Bussig * – Upprepning, gradvis modifiering – Noggrant modulerad prosodi, närmar sig musik • Igevär * – Utsträckning i det absurda – Från språkljudet abstraheras det språkliga bort, kvar blir ett ljud som balanserar på gränsen mellan mänskligt och mekaniskt Steve Reich • Different Trains * • Använder talets prosodiska melodi som grundmaterial för musikaliska figurer • Sampling, överlagring, upprepning • Melodi i tal och musik – Tal: glidande toner (glissando) – Musik: diskreta toner – Transformation av F0 till melodi innebär en ytterligare (manuell) ”sampling”, d v s diskretisering i tid och tonhöjd Charles Dodge • Sysslade tidigare med orkester- och kammarmusik • Speech Songs (1972) – ”A man sitting in a cafe” – Detta är en dikt inläst av Dodge som analyserats och återsyntetiserats – Modifierad F0, repetition, m.m. • Any similarity is purely coincidental – ”cross synthesis” av inspelning av Caruso Andra artister som använder talsyntes • Nämnda i Computer Music: – Paul Lansky – Frances White – Judy Klein • www.epitonic.com – 386DX – Gamers In Exile • Samt ett flertal som använder vocoder Sammanfattning • Tal kan mekaniseras – samplas, analyseras, lagras, manipuleras och syntetiseras • Exempel på detta är – Talsyntes • Formantsyntes • Linear Predictive Coding – Sångsyntes – Språkbaserad ljudkonst och musik • Tal, även syntetiskt, bär emotioner – Vare sig man vill eller ej – Kan i viss mån kontrolleras – Kan utnyttjas i konstnärliga syften • Mekaniskt tal är verkligen märkligt/konstigt/knäppt! – Varför? • • A: the consonant /d/ before a series of vowels having the same F1. The second formant transition appears to originate from an invisible locus at 1800 Hz, after Delattre et al. (1955). B: If the second formant onset frequency (hub) is fixed at 1800 Hz, left panel, several different consonants are heard. Text till tal: En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform Genusperspektiv? • Talsyntes oftast manliga röster • Svårare att syntetisera kvinnliga röster? – Svårare att analysera pga färre övertoner – Att minska storleken på den simulerade munhålan samt höja F0 fungerar inte • ”Mannen är normen” – De flesta analyser av tal utgår från manliga talare – Inte konstigt att denna modell inte omedelbart fungerar för att syntetisera kvinnligt tal