Talande maskiner

PROSODINS MEKANIK
talande maskiner och maskinellt tal
Staffan Larsson
April 2003
”Mitt Hjärtas Melodi”
Översikt
• Talande maskiner
– Talsyntes
•
•
•
•
Källa-filter-modellen
Formantsyntes
Linjär prediktion
Formantsyntes och sång
– Emotionell prosodi i formantsyntes
• Maskinellt tal
–
–
–
–
–
Mekaniska strukturer
Åke Hodell: General Bussig, Igevär
Steve Reich: Different Trains
Charles Dodge: Speech Songs
Med mera
Grunder
• Övertoner (harmoniska)
– Ett harmoniskt ljud med grundfrekvens F
har övertoner med frekvens 2F, 3F, …
• Filter
– Ändrar amplituden hos övertoner
– Resonansfilter/bandpassfilter: förstärker
övertoner kring en viss frekvens
• Sampling
– Diskretisering i tid; indelning i ”frames”
• Kvantisering
– Diskretisering av varje tidsutsnitt
Talande maskiner
Text till tal
En abstrakt lingvistisk representation av en text genomgår ett antal
transformationer som resulterar i en akustisk vågform
Talsyntes
• Källa-filter-modellen
F0
PITCH-PULSE
GENERATOR
AMP
RESONATION
SYSTEM (FILTER)
SPEECH
NOISE
GENERATOR
• F0 modellerar glottis; en övertonsrik grundton
• Filtret modellerar munhålan
Talsyntes forts.
• Filtermodeller
– Formantsyntes
– Linear Predictive Coding (LPC)
• Syntesmetoder
– Regelbaserad: baserat på teori
implementerad i regelsystem
– Analysbaserad: baserad på inspelat tal
(vanligtvis samplat)
• Resultatet av analysen är en uppsättning
dynamiska parametrar
Formantsyntes
• Akustisk modell
– Filtret analyseras som ett antal formanter, F1-F4
– Normalt varieras bara F1 och F2; resten är statiska
• Formanterna modelleras av bandpassfilter
med variabel frekvens
– Parallell- eller seriekopplade
• Vokaler definieras av värden på
formantfrekvenserna
• Vissa konsonanter kan modelleras som
lokuspunkter
– Andra konsonanter modelleras som brus, (”s”, ”f”)
Tidiga exempel på talsyntes
• Bell labs (1950)
– forskning om analys och syntes av tal i syfte att
minimera mängden information som skickas t ex i en
telefonledning
• Vocoder
– Analysera tal som akustiska parametrar
• F0/noise
• 10 bandpassfilter med variabel amplitud
– Använd dessa parametrar för att driva syntes som
approximerar originalet
• Voder *
– Manuell kontroll av parametrar
• Pattern Playback *
– Parametrar styrs av spektrogramläsare
OVE I
• Oratis Verbis Electris
– Gunnar Fant
– Svensk vokalformantsyntes från 50-talet
– utvecklades främst i pedagogiskt syfte, men
kan möjligen även ses som ett mellanting
mellan musikinstrument och talmaskin.
• Fyra seriekopplade bandpassfilter
– F0, F1 och F2 styrs manuellt
• Demo *
– Analog
– Digital
Ove II
Linjär prediktion
• Artikulatorisk modell
– Filtret modellerar munhålan, modellerad
som en tub med ett antal cylindriska
sektioner av olika längd och diameter
• Filter: ett ”all-pole” filter
• Predicera nästa sampel baserat på
viktad summa av föregående samples
• Mer realistisk återgivning
– MEN svårare att kontrollera parametrar, t ex
F0; filtret är instabilt
Regelbaserad vs.
Analysbaserad syntes
• Regelbaserad: regler för övergångar mellan
fonem
– Formant: regler för formantövergångar, lokusteori
(OVE II)
– LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)*
• Analysbaserad: sampling och analys av
mänskligt tal
– Formant: formantdetektion
– LPC: den metod som numera är vanligast
• Manuell syntes
– Ove, VODER
Flera talsyntessystem
• DECtalk (1980-) *
– Baserad på KlattTalk (formantsyntes)
– Formanter, lokusregler
– Flera olika röster (Klatt, arkiv D)
• Speak and Spell (1980)
– Linjär prediktion
Emotionell prosodi i
formantsystes
• Formantsyntes har även använts i forskning
på prosodins roll i uttryckandet av emotioner
• Janet Cahn
– The Generation of Affect in Synthesized
Speech
– Affect Editor (program)
• Grundantagandern
– Affektinformation är i stort sett oberoende
av lexikal information
– Emotioners effekt på talsignalen kan
kvantifieras
Tidigare forskning…
• …om akustiska korrelat till emotioner
– Sporadiskt sedan 40-talet
– Primära parametrar: F0 och rytm
• Dessa parametrar kan kontrolleras i syntes
• Fysiologiska förklaringar (Williams & Stevens
1981)
– Sympatiska(?) nervsystemet aktiveras (rädsla, ilska,
glädje) > högre blodtryck och puls > högljutt, snabbt
tal med hög frekvensenergi
– Paraympatiska nervsystemet aktiveras (uttråkadhet,
sorg) > lägre blodtryck och puls > långsamt tal med
låg tonhöjd och frekvensenergi
Alternativa representationer
• Generativ modell
– Utgår från talarens mentala tillstånd
• Akustisk modell
– Utgår från den akustiska signalen som den uppfattas
av åhöraren
– En uppsättning parametrar som motsvarar
talsignalens emotionella korrelat
• Den förra är teoretiskt mer intressant, men
den andra är enklare
– Lättare att kvantifiera och utvärdera
– Vi vet mer om akustiska än mentala korrelat
Affektparametrar
• Fyra grupper
–
–
–
–
Tonhöjd (pitch): egenskaper hosF0
Timing: rytm och talhastighet
Röstkvalitet
Artikulation
• Tonhöjd och timing är även egenskaper
hos ord och fraser
• Ej absolut indelning
• Parametrar har värden mellan –10 och
10; 0 är neutral
Tonhöjdsparametrar
• Accent shape: the rate of F0 change for
any pich accent
– Pitch accent: distinctive pitch applied to the lexically
stressed syllable of a word such that the word as a who is
percieved as reciveving sentential stress
• Average pitch: average F0 relative to
speaker’s normal pitch
• Countour slope: overall trend of pitch
range (expanding, contracting or level)
• Final lowering: terminal pitch contour
• Pitch range: range of F0 variation
• Reference line
Timingparametrar
• Fluent pauses: frequency of pausing
between syntactic or semantic units
• Hesitation pauses: frequency of pausing
within syntactic or semantic units
• Speech rate
• Stress frequency: ratio of stressed
(pitch accented) to stressable
(potentially pitch accented) words
Röstkvalitetsparametrar
• Breathiness: amount of frication noises
co-present with nonfricatives
• Brilliance: ratio of low to high frequency
energy
• Laryngearization: narrow and irregular
subglottal pulse; ”creakiness”
• Loudness: percieved loudness
Artikulationsparametrar
• Precision: degree of slurring or
enunciation
Affect Editor
• Akustisk beskrivning av emotionellt tal >
syntetiskt expressivt tal
• Syntes: DECtalk3
– Stor grad av kontroll över prosodi och röstkvalitet
• Mappning
– från akustiska parametrar + text (annoterad med
intonation och ordklassinformation)
– till syntesens inställningar + fonologisk
representation
>ghostview
Exempel
• http://xenia.media.mit.edu/~cahn/emot-speech.html
• Stimuli för experiment
Formantsyntes av sång
(Dodge)
• Kräver mer komplex modell av
munhålan (mer komplext filter)
• Interaktion mellan glottis och
munhåla
• ”Sångformanten”
– Lägre frekvens på F4 och F5 än i tal
– F4 och F5 ligger nära varandra
(2500-3500 Hz)
Sångsyntes: tidiga exempel
• Bell labs (1961)
– 1961: Max Mathews (with the
assistance of a number of technicians
at Bell Labs) made a computer sing
"Bicycle Built for Two."
• DAVO (1958) *
– Georg Rosen, MIT
• Charles Dodge (mer senare)
Mekaniskt tal
Mekaniska strukturer
(Manovich)
• Mekanisering av media: diskretisering
– Sampling
– Kvantisering
• Möjliggör mekaniska operationer
–
–
–
–
Upprepning, loopning
Utsträckning i tid
Gradvis modifiering / modulering
Överlagring (”compositing”)
• Har även använts inom ljudkonst och
musik
”Cross-synthesis” (Dodge)
• Analys – manipulation – syntes
– Tal samplas och analyseras som parametrar som
kodas digitalt (vanligtvis LPC)
– Valda parametrar manipuleras
– Återsyntes med manipulerade parametrar
• Vanliga operationer
– Kopiera parametrar från en sekvens till en annan;
skapa repetitioner
– Interpolera värdet av en given parameter för en
sekvens (värde 1 -> värde 2)
– Förläng en sekvens i tid
– Ändra värdet på en parameter i en sekvens till ett
fixt värde
– Öka värdet på en parameter i en sekvens till ett fixt
värde
Ljudkonst och tal
• ”Konkret poesi”
– Utgångspunkten är talets fysiska
egenskaper, snarare än innehållet
– I Sverige: Fylkingen (Sten Hansson, Ilmar
Laaban, Åke Hodell mfl)
• EMS, Stockholm
– 1960-tal
– En av världens mest avancerade ljudstudios
(ryms numera på en billig PC)
– Ej digital sampling, men analog teknik med
linkande möjligheter; dock mycket
arbetsamt
Åke Hodell
• General Bussig *
– Upprepning, gradvis modifiering
– Noggrant modulerad prosodi, närmar sig
musik
• Igevär *
– Utsträckning i det absurda
– Från språkljudet abstraheras det språkliga
bort, kvar blir ett ljud som balanserar på
gränsen mellan mänskligt och mekaniskt
Steve Reich
• Different Trains *
• Använder talets prosodiska melodi som
grundmaterial för musikaliska figurer
• Sampling, överlagring, upprepning
• Melodi i tal och musik
– Tal: glidande toner (glissando)
– Musik: diskreta toner
– Transformation av F0 till melodi innebär en
ytterligare (manuell) ”sampling”, d v s
diskretisering i tid och tonhöjd
Charles Dodge
• Sysslade tidigare med orkester- och
kammarmusik
• Speech Songs (1972)
– ”A man sitting in a cafe”
– Detta är en dikt inläst av Dodge som
analyserats och återsyntetiserats
– Modifierad F0, repetition, m.m.
• Any similarity is purely coincidental
– ”cross synthesis” av inspelning av Caruso
Andra artister som använder
talsyntes
• Nämnda i Computer Music:
– Paul Lansky
– Frances White
– Judy Klein
• www.epitonic.com
– 386DX
– Gamers In Exile
• Samt ett flertal som använder vocoder
Sammanfattning
• Tal kan mekaniseras
– samplas, analyseras, lagras, manipuleras och syntetiseras
• Exempel på detta är
– Talsyntes
• Formantsyntes
• Linear Predictive Coding
– Sångsyntes
– Språkbaserad ljudkonst och musik
• Tal, även syntetiskt, bär emotioner
– Vare sig man vill eller ej
– Kan i viss mån kontrolleras
– Kan utnyttjas i konstnärliga syften
• Mekaniskt tal är verkligen märkligt/konstigt/knäppt!
– Varför?
•
•
A: the consonant /d/ before a series of vowels having the same F1.
The second formant transition appears to originate from an invisible
locus at 1800 Hz, after Delattre et al. (1955).
B: If the second formant onset frequency (hub) is fixed at 1800 Hz,
left panel, several different consonants are heard.
Text till tal:
En abstrakt lingvistisk
representation av en text
genomgår ett antal
transformationer som
resulterar i en akustisk
vågform
Genusperspektiv?
• Talsyntes oftast manliga röster
• Svårare att syntetisera kvinnliga röster?
– Svårare att analysera pga färre övertoner
– Att minska storleken på den simulerade
munhålan samt höja F0 fungerar inte
• ”Mannen är normen”
– De flesta analyser av tal utgår från manliga
talare
– Inte konstigt att denna modell inte
omedelbart fungerar för att syntetisera
kvinnligt tal

Talande maskiner

Related documents

Products

Support

Talande maskiner

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib