Speech perception and spoken word recognition

Talperception 3
”Studiet av talperception handlar om
lyssnarens förmåga att uppfatta den
akustiska signalen som en talare
producerar som en sekvens av
meningsfulla ord och idéer.”
Talperception 3
Studiet av talperception har en längre historia än
man kanske tror. Bagley publicerade redan 1901
en studie där han tog upp problem som är fullt
relevanta än idag, tex.:
• Fonemrestaurering
• Semantisk betingning (semantic priming)
• Betydelsen av ordinitial information
• Kontexteffekter på ordigenkänning
Talperception 3
Fonemrestaurering innebär att vi under
vissa omständigheter ’fyller i’ information
som fattas i den akustiska signalen (t.ex.
fonem).
Det är inte bara så att vi kan ’lista ut’ vilka
fonem som avses när de fattas i den
fysiska signalen. Vi tycker oss faktiskt höra
dem trots att de egentligen inte finns.
Talperception 3
Fonemrestaurering har tagits som evidens för att
taligenkänningen (åtminstone delvis) är ’topdown’, dvs. våra kunskaper om språket gör att vi
så att säga går händelserna i förväg och gör
fortlöpande prediktioner om vad som ska sägas
innan det faktiskt sägs.
Dessa prediktioner blir sedan (oftast) bekräftade
och det spelar då inte så stor roll om det ’fattas
bitar’ bara tillräckligt mycket finns där.
Talperception 3
Evidens för ’top-down’ processning kan
också hämtas från information om
felhörningar och missförstånd där det
ofta visar sig att just felaktiga
förväntningar på vad som skulle sägas är
grunden för felhörningen.
Talperception 3
Fonemrestaurering
Du får höra frasen ”Under natten släpade
soldaterna försiktigt fram kanonen till
skogsdungen” uppläst tre gånger – först
utan brus en gång och sedan två gånger
med ett brus inplacerat någonstans i frasen.
Din uppgift är att avgöra var i frasen bruset
kommer.
Talperception 3
Var i frasen kommer bruset?
Exempel 1
Exempel 2
Exempel 3
Talperception 3
”Rätt” svar
Fonemet inom parentes var utbytt mot ett brusljud
Exempel 1
Under na(tt)en släpade soldaterna försiktigt fram kanonen till skogsdungen
Exempel 2
Under natten släpade sol(da)terna försiktigt fram kanonen till skogsdungen
Exempel 3
Under natten släpade soldaterna försiktigt fram (ka)nonen till skogsdungen
Talperception 3
Betydelsen av ordinitial information.
Det finns en hel del forskning som visar att vi
känner igen ord långt innan de uttalats färdigt.
Hur långt innan beror på en rad faktorer som
kontext, hur vanliga orden är, om vi får några
ledtrådar att gå på (semantic priming) etc.
Talperception 3
Betydelsen av ordinitial information.
Exempel 1
1
2
3
4
5
6
7
8
4
5
6
7
8
4
5
6
7
8
Exempel 2
1
2
3
Exempel 3
1
2
3
Talperception 3
Några av de verkligt stora och svårlösta
problemen inom talperceptionen är:
1. Linearitetsproblemet
2. Invariansproblemet
3. Segmenteringsproblemet
4. Val av minsta analysenhet
Talperception 3
En illustration av invariansproblemet.
Goons
Don’t
gummed
doctors
Gary’s
deal
dope
gears
daily
Talperception 3
Koartikulation utgör ett annat svårt problem,
nämligen ett segmenteringsproblem.
Koartikulationen leder till att det i de flesta
fall inte finns några skarpa gränser i
signalen mellan det som vi uppfattar som
enheter i perceptionen.
Talperception 3
Segmenteringsproblemet
I owe you a yo-yo
Var finns gränserna mellan fonemen?
Talperception 3
Alla dessa faktorer, linearitetsproblemet,
invariansproblemet och segmenteringsproblemet utgör mycket stora och till stora
delar hittills olösta problem för automatisk
taligenkänning, men vi som mänskliga
lyssnare klarar detta utan några problem.
Frågan är bara hur det går till.
Talperception 3
Val av minsta analysenhet
Som akustisk signal betraktad är talsignalen
oerhört informationsrik. Vi kan jämföra med
informationshastigheten på en CD-skiva (ung.
1.4 miljoner informationsbitar per sekund) så
inser vi att detta knappast kan vara den
information vi processar när vi hör tal. Någon
form av omvandling till andra enheter måste
ske.
Talperception 3
Så stora enheter som stavelser har föreslagits,
men det löser inte grundproblemen med t.ex.
invarians och det är dessutom svårt att tänka
sig hur man skulle kunna eliminera fonemen
helt ur stavelserna.
Så grundproblemet kvarstår ännu olöst: Hur
omvandlar lyssnaren den kontinuerligt
varierande talsignalen till en serie diskreta
representationer lämpade för lingvistisk analys?
Talperception 3
Mycket av den debatt som förts och förs i
frågan om människan har en speciell
talperceptionsförmåga, unik för människan,
går tillbaka på forskning gjord vid Haskins
Laboratories i USA under 50-talet.
…. men först lite historisk bakgrund
Talperception 3
Uppfinnandet av
spektrografen i mitten av
40-talet innebar ett stort
framsteg för talforskningen.
Man fick då möjlighet att
studera fina detaljer i
talsignalen som tidigare inte
kunnat studeras på något
enkelt sätt.
Talperception 3
Ett spektrogram innehåller ju väldigt mycket
information och man började snart fundera på
funktionen, inte minst för talperceptionen, hos de olika
detaljer man kunde observera.
Det är ju tämligen uppenbart att varje lite detalj inte
kan vara signifikant för perceptionen av tex. ett givet
talljud.
Man upptäckte snart formanternas och deras rörelsers
fundamentala roll i talperceptionen.
Talperception 3
Här ett exempel på hur man kopplade samman artikulationssätt
och artikulationsställe för några klusiler och nasaler.
Talperception 3
Frågan uppstår då: Hur ska man kunna testa olika
hypoteser om talperceptionen på ett systematiskt
sätt?
Ett sätt att göra det är genom syntetiskt framställda
stimuli. Detta ledde till att man på Haskins
konstruerade den första talsyntesmaskinen.
Den byggde på att man målade stiliserade
spektrogram på genomskinlig plast och sedan
spelade upp dessa med en optiska
avläsningsmetod.
Talperception 3
En principskiss och ett
foto som visar Haskins
syntesmaskin.
Talperception 3
Nå hur lät det då?
Kanske inte så fantastiskt bra med våra dagars mått mätt men
tillräckligt bra för att användas i enkla perceptionsexperiment.
Talperception 3
Med hjälp av denna maskin konstruerade man stimuli för en rad
perceptionsexperiment som avsåg att fastställa vad som
karaktäriserade olika fonologiska kontraster, här illustrerat med en
serie syntetiska CV-stavelser med två formanter avsedd för att
undersöka artikulationsställe för klusiler. De stiliserade
formantdiagrammen ovan illustrerar en serie som går från [bæ] (-6)
till [dæ] (-1) till [gæ] (+6).
Talperception 3
När man testade försökspersoner med stimulusserier av
denna typ gjorde man två viktiga upptäckter
1. Försökspersonernas klassificering av stimuli i serier
som [bæ] – [dæ] – [gæ] växlade över från den ena
kategorin till den andra med ganska skarpa gränser
2. När man gjorde diskrimineringstest med samma stimuli
visade det sig att försökspersonernas diskrimineringsförmåga var mycket bra när stimuli spände över en
kategorigräns men mycket dålig om stimuli hämtades
från samma kategori
Talperception 3
Typiska resultat från ett
perceptionsexperiment av
denna typ. Observera att
maximal diskriminering
sammanfaller nästan
perfekt med
kategorigränserna.
Talperception 3
Forskarna kallade denna typ av perception för Kategorisk
Perception.
Resultaten strider mot etablerade principer som Webers lag
(som ju förutsäger att diskrimineringen ska vara monoton) och
allmänna resultat som att diskrimineringsförmågan alltid
brukar vara avsevärt bättre än klassificeringsförmågan
Tidiga perceptionsexperiment med stimuli som inte hade
någon likhet med tal visade inte heller någon kategorisk
perception.
Detta gjorde att man tolkade resultaten som ett bevis för att
människan var utrustad med en unik perceptionsförmåga
speciellt anpassad för tal.
Talperception 3
En annan grundtanke var att förklaringen till
denna unika perceptionsförmåga var att
talperceptionen var oupplösligt knuten till
talproduktionen. Det som gör att vi hör
stimuli kategoriskt är att vi kopplar samman
hörselintrycket med vårt sätt att artikulera
motsvarande ljud vilket ju i någon mening är
kategoriskt.
Talperception 3
Kopplingen till talproduktionen fick ytterligare stöd
i nya experiment som visade att ett kontinuum där
VOT varierades också uppfattades kategoriskt
och att gränsen låg där talare placerar den i sin
talproduktion.
Den här talproduktionsbaserade teorin för
talperception kallades The Motor Theory of
Speech Perception med hänvisning till dess
koppling till talmotoriken
Talperception 3
Dessa idéer kom sedan att spela en mycket
central roll både för talperceptionsforskningen och den vetenskapliga
debatten om många olika grundfrågor inom
detta område, men fram för allt frågan om
människans talperceptionsförmåga är skild
från den övriga perceptionen och unik för
människan.
Talperception 3
Haskinsforskarnas idéer har
naturligtvis inte stått oemotsagda och
en av de första frågor som ställdes
var om kategorisk perception
verkligen var begränsad till att bara
gälla när talljud utgjorde stimuli.
Talperception 3
Senare forskning visade också mycket riktigt att
samma resultat kunde uppnås med stimuli som
inte hade något med talljud att göra.
Miller m.fl. (1976) gjorde tex. ett experiment där
stimuli utgjordes av abstrakta ljud (ett brusljud
följt av ett ’surr’) men som efterliknade VOTstimuli till sin temporala struktur och kunde visa
att också ett sådant kontinuum uppfattades
kategoriskt
Talperception 3
Speech stimuli
Exempel på resultat från
ett experiment där man
replikerat resultat från
ett experiment med talstimuli med ett motsvarande experiment
med abstrakta stimuli
som liknar de i
talstimulusexperimentet
Nonspeech control stimuli
Talperception 3
Pisoni (1977) gjorde ett experiment med
stimuli av en ännu mer abstrakt natur –
en ton på 500Hz och en på 1500Hz där
den höga tonen antingen föregick eller
följde den låga med olika långt intervall.
Även i detta experiment blev resultatet i
stort sett identiskt med de som erhållits
med talstimuli.
Talperception 3
Vidare visade Jusczyk (1980) att även
spädbarn uppfattade abstrakta
stimuluskontinua kategoriskt.
Resultat som dessa visar att kategorisk
perception kan förklaras som en
funktion av allmänna auditiva
mekanismer utan hänvisning till någon
speciell talperceptionsförmåga.
Talperception 3
En viss koppling mellan talperception och
perception av abstrakta stimuli har dock
påvisats, men förklaringen ligger snarare i
vad i signalen man väljer att fokusera.
Lyssna på detta ’ljud’ och säg sedan vad
det är.
Talperception 3
The steady drift is worse than a
Where were you a year ago drenching rain
Naturligt
Sinustal
Exempel på sinustal
Naturligt
Sinustal
Talperception 3
När lyssnare som fick lyssna på sinustal fick
veta att det gällde tal kunde de oftast skriva ner
vad som sades utan några större problem. Men
när de inte visste vad de skulle lyssna efter
uppfattades det mest som konstiga visselljud.
Skillnaden i perception verkar ligga i att man
uppfattar signalen mer holistiskt om man
förväntar sig tal och mer analytiskt om man
förväntar sig en abstrakt signal.
Talperception 3
Talsignalen innehåller för det mesta
många olika ledtrådar till en given
kontrast. Som exempel kan vi ta de
olika ledtrådar som i olika experiment
visat sig kunna utnyttjas av lyssnare
användas för att uppfatta distinktionen
mellan tonande och tonlösa klusiler.
19 Ledtrådar för kontrasten tonande-tonlös
1.
2.
3.
4.
5.
6.
VOT
Duration of preceding vowel
Duration of the following vowel
Duration of closure
Duration of aspiration
Duration of voiced-formant
transition
7. First-formant offset frequency
before closure
8. First-formant onset frequency
following closure
9. First-formant offset transition
duration
10.First -formant onset transition
duration
11.First-formant cutback before
closure
12. First-formant cutback after closure
13.Onset frequencies and directions
of second- and third-formant
transitions
14.Amplitude of the following vowel
relative to the preceding vowel
15.Spectral characteristics of the
following vowel
16.Fundamental frequency at
voicing onset
17.Presence or absence of lowfrequency buzz during the
closure interval
18.Decay time of glottal signal
preceding closure
19.Burst intensity following closure
”Trading relations” och ”integration of cues”
Detta exempel kan illustrera både
trading relations (när inte en ledtråd
finns till hands så kan man basera
tolkningen på någon annan) och
integration of cues (man utnyttjar alla
ledtrådar som finns till hands samtidigt
och ökar på så sätt säkerheten).
Cross-modal cue integration (The McGurk effect)
När vi både ser och hör en talare så understödjer
ofta synintrycket det vi hör. Det är tex. en
erfarenhet vi alla gjort att när man befinner sig i en
bullrig miljö så är det lättare att uppfatta en talare
om man samtidigt kan se dem talandes ansikte.
Men vad skulle hända kan man fråga sig om synoch ljudintryck inte stämmer överens, eller rent av
är i konflikt.
Det var precis den fråga som var utgångspunkten
för ett experiment som McGurk & McDonald
utförde 1976.
McGurk effekten
Ett typiskt experiment av denna typ. Lyssnaren hör ordet
’map’ men ser talaren säga ’tap’. det resulterande intrycket
är ordet ’nap’.
McGurk effekten
I originalexperimentet använde McGurk
och McDonald fyra tvåstaviga
nonsensord – baba, dada, kaka och
gaga som förkom både som auditiva
och visuella stimuli. Sedan blandades
auditiva och visuella stimuli och
presenterades för tre grupper av
försökspersoner – 4-5-åriga barn, 7-8åriga barn och vuxna.
McGurk effekten
När stimuli stod i konflikt med varandra förekom tre
typer av svar, sådana som motsvarade det auditiva
stimulset, sådana som motsvarade det visuella och
sådana som utgjorde en kombination av båda.
McGurk effekten
Ett mycket intressant resultat är skillnaden i svarsbeteende mellan
de olika grupperna av försökspersoner. I tabellen kan vi tydligt se att
när stimuli var i konflikt uppfattade barnen dem som motsvarande
den auditiva delen i betydligt högre grad än de vuxna som i sin tur
oftare uppfattade dem som motsvarande den visuella eller
sammansatta.
McGurk effekten
En delmängd av samma information i diagramform
McGurk effekten
Den här åldersbetingade skillnaden
skulle då tala emot en stark tolkning av
en speciell talperceptionsförmåga.
Förmågan att tillägna sig den visuella
informationen verkar åtminstone delvis
vara ett inlärt beteende som de vuxna
alltså tillägnat sig i högre grad än
barnen.
Talperception 3
Barn – även spädbarn – kan
kategoriskt diskriminera talljuden i sitt
eget språk, men även sådana som inte
ingår i det egna språket.
Med ökande ålder och lingvistisk
erfarenhet verkar dock förmågan att
diskriminera ljud som inte tillhör det
egna språket gå mer eller mindre
förlorad.
Talperception 3
Djur har av naturliga skäl ingen speciell
talperceptions-förmåga. Genom att göra
perceptionstest på djur kan man därför få svar
på frågan om vilka faktorer i talperceptionen
som kan förklaras av allmänna perceptoriska
förmågor, eventuellt sådant som tas om hand
redan av det perifera hörselsystemet.
Talperception 3
Det har därför gjorts en hel del studier där man
replikerat tidigare försök gjorda med mänskliga
försökspersoner.
De djur som ofta används är chinchillor och
apor därför att deras perifera hörselsystem i
ganska hög grad liknar människans. Men även
andra djur har använts, tex. vaktlar.
Låt oss titta på resultaten av några experiment
utförda av Patricia Kuhl m.fl.
Talperception 3
Figurerna visar resultaten av
klassificeringsexperiment för de
VOT-kontraster som är relevanta för
[b], [d] och [g], gjorda med
chinchillor. Resultat från försök med
engelsktalande är inlagda som
jämförelse. Man kan konstatera att
resultaten för chinchillor och
mänskliga fp stämmer helt överens
Talperception 3
För att perceptionen ska räknas som kategorisk
räcker det inte med att man klassificerar stimuli
i två kategorier. Diskrimineringsfunktionen
måste dessutom uppvisa ett maximum vid
kategorigränsen.
Resultat från experiment med chinchillor visar
att dessa även uppfyller diskrimineringsvillkoret.
Talperception 3
Figuren visar resultatet av ett diskrimineringsexperiment med chinchillor.
Den vänstra kurvan visar diskrimineringsfunktionen när VOT hos stimuli
ökades och den högra när VOT minskades. Den streckade linjen visar
VOT för bästa diskriminering hos mänskliga försökspersoner.
Överensstämmelsen är i det närmaste perfekt även här.
Perceptionsexperiment med spädbarn
Till sist några ord om perceptionsexperiment
med spädbarn.
Vi som vuxna har ju inga problem med att höra att
ett [a] är ett [a] oavsett om det uttalas av en man
eller en kvinna, en vuxen eller ett barn. Frågan är då
bara om detta är ett inlärt beteende som vi tillägnat
oss genom språklig erfarenhet eller något mer
fundamentalt.
Perceptionsexperiment med spädbarn
För att undersöka den saken gjorde Kuhl
m.fl. följande experiment.
Spädbarn (18–20 veckor gamla) lärde sig att
skilja mellan vokalen [a] och vokalen [i]
uttalade av en kvinnlig talare. Inlärningen
gick till på följande vis.
Perceptionsexperiment med spädbarn
När den kvinnliga rösten säger vokalen [a] händer inget speciellt, men
när hon säger [i] börjar en leksaksbjörn till vänster om barnet spela på
en trumma. Barnet lär sig snart att när [i] hörs kommer något skojigt att
inträffa och tittar då spontant mot björnen.
Perceptionsexperiment med spädbarn
Vad händer då om man byter talare och det
istället är en manlig talare som uttalar
vokalerna?
Jo, barnet reagerar ’rätt’ omedelbart på första
försök. Barnet har alltså förmåga att
generalisera vokalkvaliteterna utan att de
knyts till någon speciell talare och detta utan
någon speciell förgående träning.
Perceptionsexperiment med spädbarn
I andra har man använt ’goda’ och ’mindre goda’
exemplar av samma vokal. Hur pass bra ett
exemplar är som representant för en viss vokal har
man tagit fram genom perceptionstest med vuxna
försökspersoner.
När dessa vokaler används i perceptionstest med
barn visar det sig att även barnen generaliserar
lättare kring de ’goda’ vokalerna.
Perceptionsexperiment med spädbarn
Följande experiment visar att spädbarn
även kan koppla samman visuell och
auditiv språklig information.
Perceptionsexperiment med spädbarn
Barnen (12–20 veckor gamla) fick se två filmsnuttar som visade ansikten
på en person – den ena där personen säger [a] och den andra när hon
säger [i]. Från en högtalare mitt mellan bilderna presenterades sedan det
ena eller andra av vokalljuden (perfekt synkroniserat med bägge
bilderna). Det visade sig då att barnen tittade signifikant oftare (73% av
tiden) på det ansikte som motsvarade den hörda vokalen.
Perceptionsexperiment med spädbarn
Spädbarn (10–12 veckor gamla) har även visat
sig kunna att koppla samman talljud med deras
artikulation.
I ett experiment där försöksledaren ’samtalade’
med barnen och barnen uppmuntrades att härma
försöksledaren visade det sig att barnen gjorde
detta mycket bra såväl vad gäller talljudens
kvalitet, som deras duration och prosodiska
egenskaper.
Perceptionsexperiment med spädbarn
I ett annat experiment som liknade det förra men
där barnen såg ett ansikte som artikulerade
riktiga talljud men där de ljud som hördes inte var
talljud utan toner engagerade sig inte barnen alls
i någon ’konversation’.
Det är svårt att dra några alldeles bestämda
slutsatser om hur mycket av detta som ska
tillskrivas medfödda språkanpassade förmågor
men det är svårt att tänka bort en sådan
komponent helt och hållet.