Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
KISMET
s. 1 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
Abstrakt
Kismet är en autonom robot som består av enbart ett huvud. Kismet ska under
social interaktion med sin vårdare lära sig och dessutom skapa modeller med
förutsägelser om hur dess beteende påverkar omgivningen. Roboten ska sedan
fortsätta att modifiera dess modeller under den sociala interaktionen för att till
slut besitta en grundläggande kunskap om omvärlden. En kunskap som liknas
vid den ett barn besitter vid två års ålder. Kismets arkitektur består av fem olika
sammanlänkade subsystem. Dessa system har influerats av
utvecklingspsykologiska och etologiska teorier. De olika systemen är
perceptuella systemet, uppmärksamhetssystemet motivationssystemet
beteendesystemet och motoriska systemet.
s. 2 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
Innehållsförteckning
1
2
3
Inledning:.............................................................................................................................. 4
Social interaktion mellan maskin och människa ....................................................................... 5
Kismets arkitektur .................................................................................................................. 6
3.1 Beräkningsprocesser........................................................................................................... 6
3.2 Perceptions systemet.......................................................................................................... 7
3.2.1 Ansiktsigenkänning..................................................................................................... 7
3.2.2 Rörelseuppfattningsförmåga ........................................................................................ 7
3.3 Uppmärksamhetssystemet................................................................................................... 8
3.4 Motivations systemet.......................................................................................................... 9
3.4.1 Drifter........................................................................................................................ 9
3.4.1.1 Den sociala driften .................................................................................................. 9
3.4.1.2 Stimuleringsdriften.................................................................................................10
3.4.1.3 Trötthetsdriften ......................................................................................................10
3.4.1.4 Trygghetsdriften ....................................................................................................10
3.4.2 Emotioner .................................................................................................................10
3.5 Beteende systemet.............................................................................................................11
3.5.1 Socialisera.................................................................................................................13
3.5.2 Leka..........................................................................................................................13
3.5.3 Sömn. .......................................................................................................................13
3.6 Motoriska systemet...........................................................................................................13
4 Referenser............................................................................................................................15
s. 3 (15)
Artificiell Intelligens HKGBB0
HT 2002
1
Maria Johansson
Inledning:
De senaste decennierna har en ny inriktning inom AI börjat etableras. Denna nya inriktning kallas för
autonomisk agentforskning eller beteendebaserad forskning. Traditionellt har AI forskningen inriktat
sig på system med relativt avancerad kompetens, men vars kompetens är begränsad till en viss domän.
Man har inom AI forskningen föredragit djup kunskap inom ett visst område framför bred allmän
kunskap och man har fokuserat på slutna system som inte på något sätt interagerar med miljön de
befinner sig i. All kontakt med omgivningen sker ofta via en människa som beskriver robotens
kunskap och problem på att symbolspråk som systemet förstår. Systemet returnerar sedan lösningen på
problemet på samma symbolspråk, vilket medför att lösningen sedan måste realiseras av en människa.
Ett autonomt system är raka motsatsen. Det är ett öppet system som interagerar med omgivningen.
Agenten är direkt kopplad till den omgivning den befinner sig i. Interaktionen med omgivningen
möjliggörs med hjälp av olika sensorer och agentens specialbyggda arkitektur. Autonoma system ska
kunna behandla en komplex verklighet med flera problemställningar. Autonoma system är utformade
för att de på egen hand ska kunna lösa problem i en värld som är dynamisk och oförutsägbar.
Mycket av arbetet om autonoma agenter har inspirerats av biologiska system. Många system för
autonoma agenter har formats av evolutions eller etologiska perspektiv. Evolutionsperspektivet
innebär att nya system byggs på redan befintliga system, genom att använda liknande beräknings och
morfologiska strukturer. AI forskarna Cynthia Breazeal och Charles Kemp1 hävdar att inom kognitiva
system som utvecklas går man inte längs med en och samma gren i evolutionssystemet utan hoppar
mellan olika grenar. Man försöker ta sig framåt i evolutionskedjan genom att hoppa från insekter till
reptiler till råttor och hundar för att så småningom ha som mål att nå människans utvecklingsstadium.
Mellan dessa arter finns enorma evolutionära hopp som är svåra att implementera.
Breazeal och Kemp säger att evolutionen döljer sina spår väl och gör det oerhört svårt för forskare att
följa i dess spår. De föreslår istället en annan väg, den ontogenetiska och påstår att det ontogenetiska
perspektivets styrka ligger i att det är en syntes mellan många idéer och koncept som anses viktiga i
design av autonoma system.
Breazeal och Kemp argumenterar för att utvecklingspsykologin ger nya insikter i frågorna om kognitiv
och beteende utveckling och de vill att man ska följa barnets utveckling som till skillnad från
evolutionen är väldokumenterad. De vill bygga ett system som hanterar manipulation och social
interaktion. Deras system, roboten Kismet har utformats för att klara av en basal interaktion med sin
”vårdare”. Denna interaktion är tänkt att utvecklas för att så småningom ske på samma nivå som
interaktionen mellan en tvååring och dess vårdnadstagare. Kismets arkitektur och hur arbetet med
Kismet går presenteras närmare i följande text.
1
An Ontogenetic Perspective to Scaling Sensorimotor Intelligence (1996)
s. 4 (15)
Artificiell Intelligens HKGBB0
HT 2002
2
Maria Johansson
Social interaktion mellan maskin och människa
Med social interaktion menas samspel mella n olika individer eller grupper. Människors sociala
interaktion skiljer sig från interaktionen hos andra sociala djur som till exempel myror eller hundar.
Människor förväntar sig att dela kontrollen av interaktionen med dem man interagerar med. (Detta
utgör en fundamental skillnad mellan social interaktion och interaktion i den fysiska världen.)
Människor förlitar sig på en mängd social mekanismer för att dela kontroll med varandra. Exempel på
dessa mekanismer är dela uppmärksamhet och att turas om. En konsekvens av detta är att den sociala
interaktion blir ömsesidigt reglerad – allt eftersom interaktionen fortgår responderar och anpassar varje
deltagare sitt beteende efter den andre.
Ett barn behärskar från födseln vissa proto-sociala responser eller reaktioner som tillåter barnet att visa
sitt tillstånd till den vårdande vuxna. Dessa reaktioner kan delas in i fyra kategorier, affektiv,
utforskande, skydds och reglerande. Affektiva reaktioner tillåter vårdaren att tillskriva barnet känslor.
Utforskande reaktioner tillåter vårdaren att tillskriva barnet nyfikenhet, intresse och önskningar.
Skyddsreaktioner håller barnet borta från farliga stimuli och resulterar i omtänksamma och skyddande
reaktioner från vårdaren. Reglerande reaktioner uppehåller en lämplig miljö, som varken är
överväldigande eller understimulerande för barnet.
Dessa protosocial reaktioner har en kritisk roll i ett barns sociala utveckling. Dessa reaktioner
möjliggör för barnet att uppvisa intentionalitet för vårdaren. Detta uppmuntrar i sin tur vårdaren att
behandla barnet som en social varelse och att försöka etablera naturliga och dialoglika interaktioner.
För en robot är förmågan att uppvisa intentionalitet väldigt viktig för att etablera naturliga, intuitiva
flexibla och robusta sociala interaktioner med en människa. Detta för att intentionalitet för att agenten
uppför sig naturtroget. Kismets arkitektur är också utformade med tanke på att Kismet ska kunna
sända ut viktiga ledtrådar som speglar dess interna tillstånd och för att Kismet ska kunna avläsa sociala
ledtrådar från omgivningen.
Kismets starttillstånd ska efterlikna det tillstånd ett nyfött spädbarn befinner sig i. Kismet ska sedan
med hjälp av en välvillig vårdare lär sig och utvecklas. Kismets inlärningsmål är att uppnå de
förmågor som uppnås av ett barn under dess första levnadsår.
s. 5 (15)
Artificiell Intelligens HKGBB0
HT 2002
3
Maria Johansson
Kismets arkitektur
Kismet är uppdelad i fem huvudsystem:
perceptionsystemet, uppmärksamhetssystemet, motivationssystemet, beteendesystemet och motoriska
systemet.
Kismets arkitektur är starkt influerad av koncept från psykologi, etologi och utvecklingspsykologi.
Hur de olika delarna fungerar i detalj kommer jag snart gå närmare in på.
Beskrivning av Kismets arkitektur
http://www.ai.mit.edu/projects/sociable/kismet.html
3.1 Beräkningsprocesser
Kismets system är implementerat som en agentbaserad arkitektur som enligt Breazeal 2 liknar system
byggda av Blumberg och Maes.
Den huvudsakliga beräkningsprocessen i systemets implementation är modellerad som en, transducer,
en omvandlare.
Dess aktiveringsenergi beräknas genom:
 j =1

x =  ∑ w j ⋅ i j  + b
 n

Där ij står för input, wj är vikter, b är förspänning eller bias och n är antalet inputs.
Vikterna kan vara antingen positiva eller negativa. En positiv vikt står för en uppmanande, exitatorisk,
koppling och en negativ för en förhindrande, inhibitorisk, koppling.
Processen är aktiv när aktiveringsnivån överstiger aktiveringströskeln. När en process är aktiv kan den
utföra en speciell form av beräkning, skicka output signaler till sammanlänkade processer, sprida
aktiveringsenergi till länkade enheter och/ eller uttrycka sig genom ett visst beteende.
Aktiveringsenergin stimulerar vissa processer och samtidigt hämmar den andra. Aktiveringarna
resulterar i en handling eller i att roboten uttrycker ett visst interntillstånd. Varje drift, känsla, percept,
beteende eller motorisk process är modellerad som en speciell omvandlingsprocess, speciellt utformad
för just sin roll i systemets arkitektur.
2
A Motivational System for Regulating Human-Robot Interaction (1999)
s. 6 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
3.2 Perceptionssystemet
Det perceptuella systemet är ansvarigt för att konvertera sensoriska stimuli till meningsfull
information som kan hjälpa roboten att välja beteende. Systemet är designat för att kunna urskilja
såväl sociala som ickesociala stimuli, i form av ansikten och rörelser. Dessa stimuli registreras i form
av percept som tas genom kamerorna i Kismets ögon.
Perceptionssystemet fokuserar på det preattentiva och parallella steget hos mänsklig syn. Detta steg
behandlar information om grundläggande visuella features som färg, rörelse och olika ledtrådar för
djup. Perceptionssystemet behärskar både ansiktsigenkänning och rörelseuppfattning.
Ansiktsigenkänningen avläser sociala stimuli från ansikten medan rörelseuppfattningen fungerar som
både ett komplement för att öka ansiktsigenkänningens noggrannhet och som en indikator på
ickesociala stimuli.
3.2.1
Ansiktsigenkänning
Vid ansiktsigenkänning används en algoritm som kallas för ratio template. (Termen kan beskrivas på
svenska som ett slags mönsterförhållande.) Tekniken är designad för att identifiera områden som
sannolikt innehåller ett ansikte. Den är alltså inte designad för att säkert bestämma att det finns ett
ansikte på en viss bild. Anledningen till att man valde ratio template algoritmen beror på flera saker.
Det är en relativt enkel beräkning, vilket är nödvändigt för att kunna utföras inom en rimlig tid.
Tekniken har dessutom visat sig fungera väl under olika sorters förhållanden. Den klarar alltså av
ostrukturerade miljöer med varierande ljusförhållanden där människors ansikten kan vara vända åt alla
möjliga olika håll. En annan fördel med algoritmen är att den erbjuder olika nivåer av biologisk
plausibilitet. De olika mönster förhållandena kan antingen kodas in för hand eller så kan algoritmen
läras adaptivt genom att den ”utsätts för” bilder av varierande kvalité.
Ett mönsterförhållande består av områden och relationer. För varje målområde (som eventuellt
innehåller ett ansikte) på bilden som ska analyseras gör man en mönsterjämförelse med hjälp av
specifika jämförelseregler. Området ges sedan ett medelvärde som beräknas av de omkringliggande
områdena. Relationer är jämförelser mellan de olika områdenas värden till exempel mellan
råskalevärdet på det högra pannområdet i bilden och samma område i mönstret, eller mallen.
Relationen är uppfylld om förhållandet mellan den första regionen och den andra regionen uppnår ett
visst konstant värde. Antalet uppfyllda relationer fungerar som ett matchningsvärde för ett speciellt
område. Ju fler uppfyllda relationer desto troligare är det att det finns ett ansikte där.
Som systemet är implementerat idag så klarar roboten av att upptäcka ansikten på ett avstånd av tre till
sex fot från roboten. Detta avstånd ansåg forskarna vara lämplig t för en studie om social interaktion
ansikte mot ansikte. Avståndsrymden där roboten kan klara av att känna igen ansikten kan ökas enkelt
genom att bygga in fler processorer i systemet.
3.2.2
Rörelseuppfattningsförmåga
Rörelsedetektormodulen beräknar skillnaden mellan två bilder följandes efter varandra. Detta görs för
att identifiera angränsande block av rörelse i det två bilderna. De fem största identifierade blocken av
rörelse sänds genom en dual-portad RAM till motivationssystemet.
Rörelsedetektorn tar emot en 128 x 128 stor digitalbild. De inkommna bilderna lagras i tre stycken
rambuffertar. I den första bufferten lagras den inkomna bilden I0 , i den andra lagras den föregående, I1
och den tredje tar emot nästa bild. Det absoluta värdet av skillnaden mellan gråskalevärdena i varje
bild ges tröskelvärden för att skapa en rårörelsebild (Iraw = T (|I0 – I1 | )). Rårörelsebilden bearbetas
sedan för att filtrera bort högfrekvensbrus. Den filtrerade bilden segmenteras sedan i områden som
avgränsas av den angränsande rörelsen. Bilden genomsöks sedan av en algoritm. Algoritmen markerar
alla punkter som överstiger tröskelvärdet med en ”identifieringstaggning”. När alla områden som
överstiger tröskelvärdet har getts en sådan taggning sorteras taggningarna baserat på antalet bildrutor
taggningen markerar. Efter dessa beräkningar så skickas de fem rörelseblock som hade de högsta
taggningarna till motivationssystemet.
s. 7 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
3.3 Uppmärksamhetssystemet
För att roboten ska kunna dra nytta av kommunikations och sociala inlärningssituationer är det viktigt
att människa och robot ser samma sorts perceptuella stimuli som intressanta. Detta för att de stimuli
människan presenterar för roboten ska vara sådana som roboten drar till sig robotens uppmärksamhet.
Människan skulle visserligen kunna lära sig vad som drar till sig robotens uppmärksamhet men
eftersom Kismets beteende ska likna ett barns vill man att stimuli som är naturliga och intuitiva för ett
barn även ska vara det för Kismet.
Uppmärksamhetssystemets uppgift är alltså att likt ett barn, rikta resurserna för beräkningar och
beteende mot framträdande stimuli. En komplex omgivning innehåller oändliga mängder information.
Roboten ska kunna bedöma vart resurserna ska riktas och det är oerhört viktigt att detta sker i realtid.
För att kunna bestämma vart resurserna ska riktas kombineras framträdande sensorisk information
med influenser från motivationssystemet.
Uppmärksamhetssystemets design har inspirerats av Guided search v2.0 av Wolfe3 . Wolfe
presenterade detta som en möjlig modell för hur den mänskliga visuella sökningen fungerar. Kismets
forskar team har utökat denna modell till att även hantera kameror i rörelse, uppgiftsbaserade
dynamiska influenser och habitueringseffekter.
Denna utökade modell delar in uppmärksamheten i en preattentiv och en attentiv process.
Under den preattentiva processen sker sökningen parallellt. Roboten bearbetar då information som
färger, rörelse och ledtrådar för djup. Men när ett stimuli kräver uppmärksamhet eller om ett mål
upptäcks övergår roboten till sekventiell bearbetning och den attentiva processen.
Den parallella sökningen hjälper till att guida uppmärksamheten i sökningen. Först skapas en mental
representation över alla potentiella mål för uppmärksamheten. (Representationen fungerar som en
bottom-up feature karta över den omgivning som ska genomsökas.4 )
Den attentiva processen utför sedan mer komplexa beräkningar som igenkänning av ansiktsuttryck,
leta reda på ögonen eller identifiera ett visst objekt, allt inom en lokaliserad region av synfältet.
Denna design gör att processen för uppmärksamheten blir enkel och tillräckligt snabb då den endast
bearbetar de mesta framträdande ansikts och rörelsestimuli.
De mest framträdande ansiktsstimuli beräknas som de bästa kvantitiva matchningarna mot
relationsmönstret medan de mest framträdande rörelsestimuli beräknas som de fem största områden av
rörelse följande efter varandra.
Systemets design är gjord för att se till att roboten responderar på oväntade händelser, samtidigt som
den inte ska reagera på varenda lite förändring i miljön. Forskarna som jobbar med Kismet anser också
att människor med denna modell intuitivt ger rätt stimuli för att dirigera robotens uppmärksamhet.
En modell av uppmärksamhetssystemet
http://www.ai.mit.edu/projects/sociable/visual-attention.html
3
4
Wolfe (1994) refereras till i A context -dependent attention system for a social robot, Breazeal & Scassellatti
Cognitive Psychology av Sternberg, J.
s. 8 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
3.4 Motivationssystemet
Motivationssystemet är designat för att generera en interaktion mellan människa och robot som är
analog med den mellan ett barn och den vuxen som har hand om den, vårdaren. Systemet är inspirerat
av idéer från etologi, psykologi och kognitiv utveckling. Motivationssystemet består av drifter och
emotioner.
3.4.1
Drifter
Drifterna representerar robotens grundläggande behov. Det finns fyra stycken drifter. Den sociala
driften som tillfredställer robotens behov att interagera, stimuleringsdriften som tillfredställer behovet
att stimuleras, trötthetsdriften som tillfredställer robotens behov av vila och trygghetsdriften som
tillfredsställer robotens behov av trygghet.
De olika drifterna har tre grundläggande funktioner. För det första påverkar de vale t av beteende
genom att prioritera att skicka aktiveringsenergi till vissa beteenden över andra. För det andra så
påverkar de det emotionella tillståndet genom att skicka aktiveringsenergi till de emotionella
processerna. Eftersom robotens känslor spegla s av de känslouttryck den gör så kontrollerar drifterna
indirekt vilka uttryck roboten förmedlar. För det tredje så förser drifterna roboten med en kontext för
inlärning. Roboten lär sig saker som tillfredställer dess drifter.
Designen av drifternas system är starkt influerad av etologi vilket syns bl.a. in drifternas cykliska
beteende. Precis som att till exempel en hunds hunger går i cykler. Den bli hungrigare och hungrigare
tills den får mat och då avtar hungern och behovet att äta. Robotens drifter är uppbyggda på samma
sätt. Det gör att om inte en viss drift stimuleras så ökar dess intensitet kontinuerligt tills den
tillfredställs.
En annan egenskap hos drifterna är deras homeostatiska natur. För att djur ska kunna överleva ska de
kunna hålla en mängd av variabler inom rimliga gränser (till exempel föda, vätska, temperatur). På
samma sätt förändras intensiteten hos drifterna beroende på robotens behov att tillfredställa sina behov
och hur mycket de behöver tillfredställas.
Varje drift har en önskad operationspunkt. Runt omkring den finns gränser för vad som är acceptabelt.
Området inom dessa gränser kallas för den homeostatiska regimen. Så länge driften befinner sig inom
de ramarna blir dess behov tillfredställda.
Varje drift har en aktiveringsenergi som spänner mellan {-max, +max} där driftens storlek
representerar dess intensitet.
För en given drift innebär ett högt positivt värde understimulering av driften och ett högt negativt
överstimulering. Man brukar säga att driften består av tre områden, det understimulerade,
överstimulerade och det homeostatiska.
3.4.1.1 Den sociala driften
En av robotens grundläggande behov är att vara social, vilket innebär att vara i närheten av och bli
stimulerad av människor. Detta behov är viktigt för att påverka roboten att lära sig saker i en social
kontext.
När roboten är i extrempunkten för det understimulerade området är den ensam. Då agerar den för att
skapa ögonkontakt med människor. Om behovet att vara social inte tillfredställs kommer driften att
intensifieras mot det understimulerade området, där roboten är ledsen. Det motsatta extremfallet är när
roboten är när roboten är överstimulerad. Då är den asocial och agerar för att undvika ögonkontakt.
Roboten går mot det asociala området om någon överstimulerar den. Detta kan hända om man rör sig
för mycket eller kommer för nära robotens kamera.
s. 9 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
3.4.1.2 Stimuleringsdriften
Ett annat grundläggande behov är att stimuleras. Detta kan ske antingen genom den omgivande miljö
eller genom vad Brazeal och Scassellatti 5 kallar för ”spontan självlek”. När roboten är i den
understimulerade delen av driften är den uttråkad. Uttråkad blir den om den varit inaktiv eller inte
blivit stimulerad under en viss tid. I den motsatta extremen, när roboten är överstimulerad, blir den
förvirrad. Roboten blir förvirrad om den mottar mer stimulering än den klarar av att hantera,
assimilera. När detta sker försöker roboten minska interaktionen med omvärlden genom att till
exempel blunda eller vända bort huvudet. Brazeal och Scassellatti tror att den här driften kommer vara
viktig för inlärningen i framtiden. Om interaktionen med omgivningen är förutsägbar blir roboten
uttråkad vilket kommer få roboten att ”vilja” ägna sig åt nya aktiviteter. Därmed kommer den
uppmana människan den interagerar med att komma med utmaningar i form av nya interaktioner.
3.4.1.3 Trötthetsdriften
Den här driften skiljer sig från de andra genom att den låter roboten stänga ute omvärlden istället för
att försöka reglera interaktionen med den. När roboten är ”vaken” mottar den upprepad stimulering
från omgivningen. Allt eftersom tiden går närmar sig den här driften den utmattande delen av
spektrum. När intensiteten går över ett visst tröskelvärde är det dags för roboten att sova.
Brazeal och Scassellatti6 säger att detta i framtiden kommer användas som ett tillfälle för roboten att
konsolidera sina inlärda förutseelsemodeller och integrera dem med resten av den interna
kontrollstrukturen. Medan roboten sover återgår trötthetsdriften till det homeostatiska området och
roboten vaknar.
3.4.1.4 Trygghetsdriften
Inlärningen hos Kismet går ut på att den ska lära sig att förutse hur dess handlingar påverkar
omgivningen. Om en inlärd förutseelse är sann kan roboten använda sig av den under den sociala
interaktionen med omgivningen.
Om kunskapen roboten då skaffar sig är sann befinner den sig i ett tryggt tillstånd och kan fortsätta att
assimilera ny kunskap. Men om robotens modeller inte stämmer överens med verkligheten hamnar den
i ett osäkert tillstånd. Den blir då tvungen att modifiera sina modeller för att på så sätt balansera
trygghetsdriften. Det är på grund av denna drift som roboten klarar av en miljö där dess kompetens
saktar få avancera.
3.4.2
Emotioner
Emotioner har två funktioner för roboten. Det ena är att influera robotens emotionella uttryck genom
att skicka aktivationsenergi till de motoriska processerna i robotens ansikte.
Det andra är att emotionerna har en viktig roll i att reglera interaktionen som sker öga mot öga med
”vårdaren”. Den har då även en viktig roll vad gäller inlärningen i sådana situationer. Emotionerna
eller känslorna är viktiga för att kommunicera statusen för robotens behov.
Det emotionella systemet är starkt influerat av olika teorier om människors känslor. Den liknar mest
Velasquez7 beskrivning.
Kismet har flera olika känsloprocesser. Även då de är rätt olika mänskliga känsloprocesser så är de
designade för att vara primitiva analoger , framförallt gällande ansiktuttrycken.
Kismets känslor är alltså precis som människors, åtskilda från varandra. Varje känsla består av en
familj av liknande känslor med olika intensitet. Till exempel består lycka av flera andra känslor som
pendlar mellan nöjd (lägsta aktiveringsnivå för lycka) och extatisk (hög aktiveringsnivå).
Aktiveringsnivån för varje känsla varierar mellan [0, max] där max är ett siffervärde som bestäms
empiriskt. Mer om hur detta görs framgår inte i några publikationer angående Kismet.
Känslor är alltid aktiva med de måste passera ett visst tröskelvärde innan de uttrycks externt i form av
känslouttryck. När roboten uttrycker känslor reflekterar robotens ansiktsuttryck den nuvarande
aktiverings nivån hos känslan.
5
Infant-like Social Interactions Between a Robot and a Human Caretaker (2000)
Infant-like Social Interactons Between a Robot and a Human Caretaker (2000)
7
Modeling emotions and other motivations in synthetic agents (1996)
6
s. 10 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
När en känsla passerar över tröskelvärdet sjunker den sen sakta ner mot grundläget, om den inte får
input från andra processer eller händelser, som håller värdet uppe.
Robotens känslor är ett resultat av dess känslotillstånd. Känslotillståndet representeras som en punkt
längs med tre axlar i tre dimensioner; arousal valens och stance. Arousal kan vara hög neutral eller låg.
Valens kan vara positiv neutral eller negativ och stance är öppen neutral eller stängd. Området med
dessa axlar brukar kallas för affect space, eller känslorymd.
Känslotillståndet beräknas genom att summera data från beteendesystemet och data från de olika
drifterna. Även percept kan bidra genom ”utlösningsmekanismer” (varje utlösningsmekanism har en
associerad somatisk markeringsprocess som ger mekanismen värden för arousal valens och stance).
Hur påverkar då känslotillståndet beteenden och ansiktsuttryck?
Jo, området inom de tre axlarna, känslorymden delas in i olika känsloområden. Varje område är
karakteristiskt för en typisk känsla hos människor. Lycka karakteriseras till exempel av positiv valens
och neutral arousal. Den region vars centrum är närmast det nuvarande känslotillståndet sägs vara
aktiv. Känslornas intensitet, det vill säga vad ansiktet gör för känslouttryck är proportionell mot
avståndet mellan det nuvarande känslotillståndet och centrum för det aktiva känsloområdet.
Det finns åtta känslor implementerade i Kismets system, var och en som en separat process.
Känslorna ilska, avsky, rädsla, lycka och ledsamhet är analoger till människans primära känslor. De
sista tre är enligt Breazeal8 kontroversiella att klassificera men har en viktig roll inom inlärningen och
den social interaktionen mellan en vuxen och ett barn. Därför har man ändå valt att implementera dem
i systemet. Dessa känslor är överraskning intresse och excitement.
lugn
ilska
glädje
sorg
Roboten är även implementerad till att kunna känna smärta.
Det sker när det kommer information från perceptionsprocesserna som säger att signalen är för stark.
Det kan till exempel bero på att en stark lampa skiner på robotens kamera så den blir ”förblindad” eller
så kan det vara ett ljud som är så starkt att roboten inte kan höra något annat. Detta resulterar i att
robotens nivåer för ilska och ledsamhet ökar så att roboten visar tecken på att inte må bra. Detta kan
åtföljas av skyddsmekanismer som att blunda eller vända öronen bort från ljudkällan.
De olika känslorna kan påverka varandra. Anledningen till detta är att hindra konflikterande känslor
från att vara aktiva samtidigt. Detta implementeras genom ömsesidiga förhindrande kopplingar mellan
känslorna. Sådana kopplingar finns till exempel mellan lycka och sorgsenhet, lycka och avsky och
lycka och ilska.
3.5 Beteendesystemet
Kismets beteendesystem är designat så att Kismet ska utföra beteenden som liknar ett barn och sådana
beteende som starkast uppmuntrar människor att interagera med roboten som om den vore ett barn.
Det är också tänkt att människorna ska tillskriva roboten avsiktlighet.
Robotens interntillstånd består av känslor, drifter, aktiva beteenden och ett beteendes beständighet.
Interntillståndet bestämmer tillsammans med den varseblivna omgivningen (tolkad genom
utläsningsmekanismerna) vilka beteenden som ska bli aktiva. När ett beteende är aktivt kan det
påverka både hur roboten rör sig (genom att påverka de motoriska processerna) och det nuvarande
ansiktsuttrycket (genom att påverka arousal och valens aspekterna i det emotionella systemet).
8
A Motivational System for Regulating Human-Robot Interaction (1999)
s. 11 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
Beteenden kan även påverka perceptionen genom att styra roboten till att fördragsvis uppmärksamma
stimuli som är relevanta för den dåvarande uppgiften.
Kismets olika beteende är ordnade i en heterogen hierarki med löst ordnade lager eller nivåer. På varje
nivå är beteenden grupperade i så kallade cross exclusion groups CEGs. De olika grupperna
representerar de olika strategierna för att tillfredställa förälderns (beteendet på nivån ovanför) mål.
Vilket beteende som ”vinner” inom varje CEG beror på det dåvarande tillståndet hos robotens känslor,
drifter och percept.
Det vinnande beteende kan skicka vidare aktiveringsenergi till dess barn (nivå 0 eller 1 beteende) eller
aktivera motoriska färdigheter (nivå två beteende)
Det vinnande beteendet påverkar känslotillståndet genom att påverka det mot en positiv valens när
beteende är framgångsrikt och mot en negativ valens om beteendet inte är det. Detta medför att
roboten visar glädje om den lyckas och visar ökad frustration ju längre det tar det aktiva beteendet att
nå sitt mål.
Mål för beteenden representeras ofta i perceptuella termer. Till exempel så är målet för seek person
beteendet att ett stimulus i form av ett ansikte ska dyka upp i synfältet. Roboten kommer att utföra
visuell sökning tills detta sker.
Konkurrens mellan de olika beteenden på toppnivån representerar val på globala nivån, vilken drift
som behöver regleras. Konkurrensen på nivå ett representerar strategier för att tillfredställa en viss
drift. Nivå två representerar subfunktioner eller uppgifter.
Toppnivån tar emot aktiveringsenergi beroende på intensiteten hos den associerade driften. I toppnivån
är alla beteenden medlemmar av samma CEG. Det medför att roboten bara kan tillfredställa en drift åt
gången. Beteendet ser också till att skicka värdena för arousal och valens hos drifterna till
känslosystemet. Detta kan bara ske om ett beteende är aktivt vilket medför att endast den drift som för
tillfället förändras kan påverka robotens ansiktsuttryck. Anledningen till detta är att det ska vara lättare
att tyda robotens signaler och därmed kunna förstå dess motivationstillstånd.
Vilket behov som vinner på nivå ett beror på dåvarande percept, drifter och känslor. Till exempel så är
avoid person beteendet mest relevant om den sociala driften är överstimulerad och någon stimulerar
roboten för häftigt. För att styra robotens uppmärksamhet mot de stimuli som är mest relevanta för
tillfället kan det aktiva beteende på nivå ett påverka uppmärksamhetssystemet.
På nivå två utförs under funktionerna. Om beteende seek person aktiveras på nivå ett kan roboten göra
två saker beroende på inkomna percept. Om roboten kan se ett ansikte aktiveras orient to face
beteendet och om den inte kan det aktiveras look around beteende.
s. 12 (15)
Artificiell Intelligens HKGBB0
HT 2002
3.5.1
Maria Johansson
Socialisera.
När den sociala driften hamnar under den homeostatiska nivån, det vill säga närmar sig ensamhet, blir
behovet att socialisera allt mer påtagligt. När aktiveringsnivån överstiger tröskelvärdet och roboten
kan interagera med någon öga mot öga aktiveras socialiserings beteendet. Beteendet fortsätter vara
aktivt så länge det håller sig inom det homeostatiska området, det vill säga så länge interaktionen hålls
på en lagom nivå. Om interaktionen är för stark sjunker den sociala driften under den homeostatiska
nivån och roboten hamnar i ett asocialt tillstånd. Intensiteten hos socialiserings driften kan bara
återställas medan beteendet är aktivt.
3.5.2
Leka.
När stimuleringsdriften hamnar under den homeostatiska nivån och alltså närmar sig det uttråkade
området, blir behovet att stimuleras allt starkare. Roboten blir uttråkad och lekbeteende aktiveras.
Lekbeteendet syftar till att höja stimuleringsdriften så att robotens tillstånd närmar återgår till den
homeostatiska nivån. Beteendet är aktivt så länge stimuleringsdriften hålls inom det homeostatiska
området, det vill säga interaktionen inte är för intensiv så roboten blir förvirrad.
3.5.3
Sömn.
När trötthetsdriften överstiger den homeostatiska nivån aktiveras sömnbeteendet. Medan roboten sover
återställs robotens trötthetsdrift och när den är återställd stoppas beteendet och roboten vaknar. Under
sömnen så återställs även robotens övriga drifter till den homeostatiska nivån. Därav kan man kalla
sömn beteende som någon form av skyddsmekanism. Om ett beteende inte tillfredställs blir roboten
först arg och kan sedan falla i sömn. Detta kan ses som ett försvarsbeteende och ger möjlighet för
roboten att själv reglera sina drifter. Detta beteende finns även hos små barn.
3.6 Motoriska systemet
Som jag tidigare berättat så uttrycker Kismet sina känslor genom motoriska färdigheter. Kismets
motoriska funktioner hanterar rörelser för öronen, ögonbrynen, ögonlocken, och munnen.
De rörelser och uttryck Kismet gör är tänkt att efterlikna mänskliga, med ett undantag. Kismets öron
följer istället en hunds rörelsemönster.
Kismets öron har två frihetsgrader. Han kan lyfta öronen och vifta med dem. Om Kismet till exempel
vill uttrycka intresse höjer han öronen medan han för att uttrycka ilska fäller bak dem för att på så sätt
likna ett förargat djur.
Kismets ögonbryn kan antingen sänkas eller lyftas eller böjas. Kismet höjer och sänker ögonbrynen i
frustration och bågar ögonbrynen i förvåning. Han kan även höja den innersta kanten av ögonbrynen
för att på så sätt uttrycka sorg.
Kismets ögonlock och likaså mun, kan öppnas och stängas. Ögonlocken kan öppnas och stängas
oberoende av varandra vilket möjliggör för roboten att blinka med ett eller båda ögonen samtidigt.
Läpparna kan utöver normaltillståndet uttrycka ett leende.
Det motoriska systemet får input från både känslosystemet och beteendesystemet. Känslotillståndet
framkallar ansiktsuttryck som motsvarar den känsla som för tillfället är aktiv.
Beteenden på nivå två i beteendesystemet framkallar motoriska färdigheter så som lookaround, look
away, greet och orient.
Look around innebär att roboten rör på ögonen för att uppnå ett nytt visuellt sceneri. Look away
innebär att roboten vänder ansiktet bort från ett irriterande stimuli. Greet innebär att roboten viftar på
öronen samtidigt som den fixerar blicken för att hålla ögonkontakt med en person. Orient innebär att
roboten rör på nacken samtidigt som den håller kvar blicken på föremålet eller personen. Roboten
orienterar sig mot stimulit för att uppnå något som Breazeal kallar för mutual regard. (how to build
robots…)
Varje dimension i Kismets känslotillstånd (arousal, valens och stance) mappas till en uttrycks rymd
där varje dimension har ett karakteristiskt ansiktsuttryck för varje extrem värde.
s. 13 (15)
Artificiell Intelligens HKGBB0
HT 2002
Maria Johansson
Kismet har sex prototypiska uttryck, för hög eller låg arousal, negativ eller positiv valens och för
öppen eller stängd stance. Dessa sex uttryck spänner över hela Kismets uttrycksrymd.
Varje dimension ändrar på de flesta sakerna i ansiktet på något sätt. Däremot ändrar vissa dimensioner
mer på en specifik sak i ansiktet, än vad andra dimensioner gör. Till exempel så har valens starkast
påverkan på läpparnas böjning, men det påverkar också öronens, ögonlockens, ögonbrynens och
käkarnas position.
Fördelen med att låta Kismet ha en uttrycksrymd är att det tillåter Kismet att visa distinkta och
lättförståeliga uttryck som är konsistenta med dess känslotillstånd.
s. 14 (15)
Artificiell Intelligens HKGBB0
HT 2002
4
Maria Johansson
Referenser
Breazeal, C & Scassellati, B . (1999), ” A context-dependent attention system för a scoial robot”.
Proceedings of the International Joint Conference on Artificiall Intelligence (IJCAI99)
Breazeal, C. (1999), ”Robot in society, friend or appliance?”. http://www.ai.mit.edu/projects/kismet
Breazeal, C. and Scassellati, B. (1999), "How to build robots that make friends and influence people".
IROS99
Breazeal(Ferrell), C. and Scassellati, B. (2000), "Infant-like Social Interactions Between a Robot and a
Human Caretaker".
Breazeal(Ferrell), C. (1998), "Early Experiments using Motivations to Regulate Human-Robot
Interaction". Proceedings of AAAI98
Breazeal(Ferrell), C. (1999), "A Motivational System for Regulating Human-Robot Interaction". In
Proceedings of AAAI98, Madison, WI. 54-61.
Brooks, R., Breazeal(Ferrell), C., Irie, R., Kemp, C., Marjanovic, M., Scassellati, B., and Williamson,
M. (1998), "Alternative Essences of Intelligence"". Proceedings of AAAI98
Ferrell, C. and Kemp, C. (1996), "An Ontogenetic Perspective to Scaling Sensorimotor Intelligence".
1996 AAAI Fall Symposium, AAAI Press. 45-49.
Scassellati, B. (1998), "Eye Finding via Face Detection for a Foveated, Active Vision System'',
Proceedings of AAAI98,
Sternberg, R. (1999) Cognitive psychology. Harcount Brace College Publishers
Velasques, J. Modeling emotions and other motivations in synthetic agents. Proceedings of AAAI
http://www.ai.mit.edu/projects/sociable/xxx
s. 15 (15)