PROSODINS MEKANIK
talande maskiner och maskinellt tal
Staffan Larsson
April 2003
”Mitt Hjärtas Melodi”
Översikt
• Talande maskiner
– Talsyntes
•
•
•
•
Källa-filter-modellen
Formantsyntes
Linjär prediktion
Formantsyntes och sång
– Emotionell prosodi i formantsyntes
• Maskinellt tal
–
–
–
–
–
Mekaniska strukturer
Åke Hodell: General Bussig, Igevär
Steve Reich: Different Trains
Charles Dodge: Speech Songs
Med mera
Grunder
• Övertoner (harmoniska)
– Ett harmoniskt ljud med grundfrekvens F
har övertoner med frekvens 2F, 3F, …
• Filter
– Ändrar amplituden hos övertoner
– Resonansfilter/bandpassfilter: förstärker
övertoner kring en viss frekvens
• Sampling
– Diskretisering i tid; indelning i ”frames”
• Kvantisering
– Diskretisering av varje tidsutsnitt
Talande maskiner
Text till tal
En abstrakt lingvistisk representation av en text genomgår ett antal
transformationer som resulterar i en akustisk vågform
Talsyntes
• Källa-filter-modellen
F0
PITCH-PULSE
GENERATOR
AMP
RESONATION
SYSTEM (FILTER)
SPEECH
NOISE
GENERATOR
• F0 modellerar glottis; en övertonsrik grundton
• Filtret modellerar munhålan
Talsyntes forts.
• Filtermodeller
– Formantsyntes
– Linear Predictive Coding (LPC)
• Syntesmetoder
– Regelbaserad: baserat på teori
implementerad i regelsystem
– Analysbaserad: baserad på inspelat tal
(vanligtvis samplat)
• Resultatet av analysen är en uppsättning
dynamiska parametrar
Formantsyntes
• Akustisk modell
– Filtret analyseras som ett antal formanter, F1-F4
– Normalt varieras bara F1 och F2; resten är statiska
• Formanterna modelleras av bandpassfilter
med variabel frekvens
– Parallell- eller seriekopplade
• Vokaler definieras av värden på
formantfrekvenserna
• Vissa konsonanter kan modelleras som
lokuspunkter
– Andra konsonanter modelleras som brus, (”s”, ”f”)
Tidiga exempel på talsyntes
• Bell labs (1950)
– forskning om analys och syntes av tal i syfte att
minimera mängden information som skickas t ex i en
telefonledning
• Vocoder
– Analysera tal som akustiska parametrar
• F0/noise
• 10 bandpassfilter med variabel amplitud
– Använd dessa parametrar för att driva syntes som
approximerar originalet
• Voder *
– Manuell kontroll av parametrar
• Pattern Playback *
– Parametrar styrs av spektrogramläsare
OVE I
• Oratis Verbis Electris
– Gunnar Fant
– Svensk vokalformantsyntes från 50-talet
– utvecklades främst i pedagogiskt syfte, men
kan möjligen även ses som ett mellanting
mellan musikinstrument och talmaskin.
• Fyra seriekopplade bandpassfilter
– F0, F1 och F2 styrs manuellt
• Demo *
– Analog
– Digital
Ove II
Linjär prediktion
• Artikulatorisk modell
– Filtret modellerar munhålan, modellerad
som en tub med ett antal cylindriska
sektioner av olika längd och diameter
• Filter: ett ”all-pole” filter
• Predicera nästa sampel baserat på
viktad summa av föregående samples
• Mer realistisk återgivning
– MEN svårare att kontrollera parametrar, t ex
F0; filtret är instabilt
Regelbaserad vs.
Analysbaserad syntes
• Regelbaserad: regler för övergångar mellan
fonem
– Formant: regler för formantövergångar, lokusteori
(OVE II)
– LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)*
• Analysbaserad: sampling och analys av
mänskligt tal
– Formant: formantdetektion
– LPC: den metod som numera är vanligast
• Manuell syntes
– Ove, VODER
Flera talsyntessystem
• DECtalk (1980-) *
– Baserad på KlattTalk (formantsyntes)
– Formanter, lokusregler
– Flera olika röster (Klatt, arkiv D)
• Speak and Spell (1980)
– Linjär prediktion
Emotionell prosodi i
formantsystes
• Formantsyntes har även använts i forskning
på prosodins roll i uttryckandet av emotioner
• Janet Cahn
– The Generation of Affect in Synthesized
Speech
– Affect Editor (program)
• Grundantagandern
– Affektinformation är i stort sett oberoende
av lexikal information
– Emotioners effekt på talsignalen kan
kvantifieras
Tidigare forskning…
• …om akustiska korrelat till emotioner
– Sporadiskt sedan 40-talet
– Primära parametrar: F0 och rytm
• Dessa parametrar kan kontrolleras i syntes
• Fysiologiska förklaringar (Williams & Stevens
1981)
– Sympatiska(?) nervsystemet aktiveras (rädsla, ilska,
glädje) > högre blodtryck och puls > högljutt, snabbt
tal med hög frekvensenergi
– Paraympatiska nervsystemet aktiveras (uttråkadhet,
sorg) > lägre blodtryck och puls > långsamt tal med
låg tonhöjd och frekvensenergi
Alternativa representationer
• Generativ modell
– Utgår från talarens mentala tillstånd
• Akustisk modell
– Utgår från den akustiska signalen som den uppfattas
av åhöraren
– En uppsättning parametrar som motsvarar
talsignalens emotionella korrelat
• Den förra är teoretiskt mer intressant, men
den andra är enklare
– Lättare att kvantifiera och utvärdera
– Vi vet mer om akustiska än mentala korrelat
Affektparametrar
• Fyra grupper
–
–
–
–
Tonhöjd (pitch): egenskaper hosF0
Timing: rytm och talhastighet
Röstkvalitet
Artikulation
• Tonhöjd och timing är även egenskaper
hos ord och fraser
• Ej absolut indelning
• Parametrar har värden mellan –10 och
10; 0 är neutral
Tonhöjdsparametrar
• Accent shape: the rate of F0 change for
any pich accent
– Pitch accent: distinctive pitch applied to the lexically
stressed syllable of a word such that the word as a who is
percieved as reciveving sentential stress
• Average pitch: average F0 relative to
speaker’s normal pitch
• Countour slope: overall trend of pitch
range (expanding, contracting or level)
• Final lowering: terminal pitch contour
• Pitch range: range of F0 variation
• Reference line
Timingparametrar
• Fluent pauses: frequency of pausing
between syntactic or semantic units
• Hesitation pauses: frequency of pausing
within syntactic or semantic units
• Speech rate
• Stress frequency: ratio of stressed
(pitch accented) to stressable
(potentially pitch accented) words
Röstkvalitetsparametrar
• Breathiness: amount of frication noises
co-present with nonfricatives
• Brilliance: ratio of low to high frequency
energy
• Laryngearization: narrow and irregular
subglottal pulse; ”creakiness”
• Loudness: percieved loudness
Artikulationsparametrar
• Precision: degree of slurring or
enunciation
Affect Editor
• Akustisk beskrivning av emotionellt tal >
syntetiskt expressivt tal
• Syntes: DECtalk3
– Stor grad av kontroll över prosodi och röstkvalitet
• Mappning
– från akustiska parametrar + text (annoterad med
intonation och ordklassinformation)
– till syntesens inställningar + fonologisk
representation
>ghostview
Exempel
• http://xenia.media.mit.edu/~cahn/emot-speech.html
• Stimuli för experiment
Formantsyntes av sång
(Dodge)
• Kräver mer komplex modell av
munhålan (mer komplext filter)
• Interaktion mellan glottis och
munhåla
• ”Sångformanten”
– Lägre frekvens på F4 och F5 än i tal
– F4 och F5 ligger nära varandra
(2500-3500 Hz)
Sångsyntes: tidiga exempel
• Bell labs (1961)
– 1961: Max Mathews (with the
assistance of a number of technicians
at Bell Labs) made a computer sing
"Bicycle Built for Two."
• DAVO (1958) *
– Georg Rosen, MIT
• Charles Dodge (mer senare)
Mekaniskt tal
Mekaniska strukturer
(Manovich)
• Mekanisering av media: diskretisering
– Sampling
– Kvantisering
• Möjliggör mekaniska operationer
–
–
–
–
Upprepning, loopning
Utsträckning i tid
Gradvis modifiering / modulering
Överlagring (”compositing”)
• Har även använts inom ljudkonst och
musik
”Cross-synthesis” (Dodge)
• Analys – manipulation – syntes
– Tal samplas och analyseras som parametrar som
kodas digitalt (vanligtvis LPC)
– Valda parametrar manipuleras
– Återsyntes med manipulerade parametrar
• Vanliga operationer
– Kopiera parametrar från en sekvens till en annan;
skapa repetitioner
– Interpolera värdet av en given parameter för en
sekvens (värde 1 -> värde 2)
– Förläng en sekvens i tid
– Ändra värdet på en parameter i en sekvens till ett
fixt värde
– Öka värdet på en parameter i en sekvens till ett fixt
värde
Ljudkonst och tal
• ”Konkret poesi”
– Utgångspunkten är talets fysiska
egenskaper, snarare än innehållet
– I Sverige: Fylkingen (Sten Hansson, Ilmar
Laaban, Åke Hodell mfl)
• EMS, Stockholm
– 1960-tal
– En av världens mest avancerade ljudstudios
(ryms numera på en billig PC)
– Ej digital sampling, men analog teknik med
linkande möjligheter; dock mycket
arbetsamt
Åke Hodell
• General Bussig *
– Upprepning, gradvis modifiering
– Noggrant modulerad prosodi, närmar sig
musik
• Igevär *
– Utsträckning i det absurda
– Från språkljudet abstraheras det språkliga
bort, kvar blir ett ljud som balanserar på
gränsen mellan mänskligt och mekaniskt
Steve Reich
• Different Trains *
• Använder talets prosodiska melodi som
grundmaterial för musikaliska figurer
• Sampling, överlagring, upprepning
• Melodi i tal och musik
– Tal: glidande toner (glissando)
– Musik: diskreta toner
– Transformation av F0 till melodi innebär en
ytterligare (manuell) ”sampling”, d v s
diskretisering i tid och tonhöjd
Charles Dodge
• Sysslade tidigare med orkester- och
kammarmusik
• Speech Songs (1972)
– ”A man sitting in a cafe”
– Detta är en dikt inläst av Dodge som
analyserats och återsyntetiserats
– Modifierad F0, repetition, m.m.
• Any similarity is purely coincidental
– ”cross synthesis” av inspelning av Caruso
Andra artister som använder
talsyntes
• Nämnda i Computer Music:
– Paul Lansky
– Frances White
– Judy Klein
• www.epitonic.com
– 386DX
– Gamers In Exile
• Samt ett flertal som använder vocoder
Sammanfattning
• Tal kan mekaniseras
– samplas, analyseras, lagras, manipuleras och syntetiseras
• Exempel på detta är
– Talsyntes
• Formantsyntes
• Linear Predictive Coding
– Sångsyntes
– Språkbaserad ljudkonst och musik
• Tal, även syntetiskt, bär emotioner
– Vare sig man vill eller ej
– Kan i viss mån kontrolleras
– Kan utnyttjas i konstnärliga syften
• Mekaniskt tal är verkligen märkligt/konstigt/knäppt!
– Varför?
•
•
A: the consonant /d/ before a series of vowels having the same F1.
The second formant transition appears to originate from an invisible
locus at 1800 Hz, after Delattre et al. (1955).
B: If the second formant onset frequency (hub) is fixed at 1800 Hz,
left panel, several different consonants are heard.
Text till tal:
En abstrakt lingvistisk
representation av en text
genomgår ett antal
transformationer som
resulterar i en akustisk
vågform
Genusperspektiv?
• Talsyntes oftast manliga röster
• Svårare att syntetisera kvinnliga röster?
– Svårare att analysera pga färre övertoner
– Att minska storleken på den simulerade
munhålan samt höja F0 fungerar inte
• ”Mannen är normen”
– De flesta analyser av tal utgår från manliga
talare
– Inte konstigt att denna modell inte
omedelbart fungerar för att syntetisera
kvinnligt tal