Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson KISMET s. 1 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson Abstrakt Kismet är en autonom robot som består av enbart ett huvud. Kismet ska under social interaktion med sin vårdare lära sig och dessutom skapa modeller med förutsägelser om hur dess beteende påverkar omgivningen. Roboten ska sedan fortsätta att modifiera dess modeller under den sociala interaktionen för att till slut besitta en grundläggande kunskap om omvärlden. En kunskap som liknas vid den ett barn besitter vid två års ålder. Kismets arkitektur består av fem olika sammanlänkade subsystem. Dessa system har influerats av utvecklingspsykologiska och etologiska teorier. De olika systemen är perceptuella systemet, uppmärksamhetssystemet motivationssystemet beteendesystemet och motoriska systemet. s. 2 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson Innehållsförteckning 1 2 3 Inledning:.............................................................................................................................. 4 Social interaktion mellan maskin och människa ....................................................................... 5 Kismets arkitektur .................................................................................................................. 6 3.1 Beräkningsprocesser........................................................................................................... 6 3.2 Perceptions systemet.......................................................................................................... 7 3.2.1 Ansiktsigenkänning..................................................................................................... 7 3.2.2 Rörelseuppfattningsförmåga ........................................................................................ 7 3.3 Uppmärksamhetssystemet................................................................................................... 8 3.4 Motivations systemet.......................................................................................................... 9 3.4.1 Drifter........................................................................................................................ 9 3.4.1.1 Den sociala driften .................................................................................................. 9 3.4.1.2 Stimuleringsdriften.................................................................................................10 3.4.1.3 Trötthetsdriften ......................................................................................................10 3.4.1.4 Trygghetsdriften ....................................................................................................10 3.4.2 Emotioner .................................................................................................................10 3.5 Beteende systemet.............................................................................................................11 3.5.1 Socialisera.................................................................................................................13 3.5.2 Leka..........................................................................................................................13 3.5.3 Sömn. .......................................................................................................................13 3.6 Motoriska systemet...........................................................................................................13 4 Referenser............................................................................................................................15 s. 3 (15) Artificiell Intelligens HKGBB0 HT 2002 1 Maria Johansson Inledning: De senaste decennierna har en ny inriktning inom AI börjat etableras. Denna nya inriktning kallas för autonomisk agentforskning eller beteendebaserad forskning. Traditionellt har AI forskningen inriktat sig på system med relativt avancerad kompetens, men vars kompetens är begränsad till en viss domän. Man har inom AI forskningen föredragit djup kunskap inom ett visst område framför bred allmän kunskap och man har fokuserat på slutna system som inte på något sätt interagerar med miljön de befinner sig i. All kontakt med omgivningen sker ofta via en människa som beskriver robotens kunskap och problem på att symbolspråk som systemet förstår. Systemet returnerar sedan lösningen på problemet på samma symbolspråk, vilket medför att lösningen sedan måste realiseras av en människa. Ett autonomt system är raka motsatsen. Det är ett öppet system som interagerar med omgivningen. Agenten är direkt kopplad till den omgivning den befinner sig i. Interaktionen med omgivningen möjliggörs med hjälp av olika sensorer och agentens specialbyggda arkitektur. Autonoma system ska kunna behandla en komplex verklighet med flera problemställningar. Autonoma system är utformade för att de på egen hand ska kunna lösa problem i en värld som är dynamisk och oförutsägbar. Mycket av arbetet om autonoma agenter har inspirerats av biologiska system. Många system för autonoma agenter har formats av evolutions eller etologiska perspektiv. Evolutionsperspektivet innebär att nya system byggs på redan befintliga system, genom att använda liknande beräknings och morfologiska strukturer. AI forskarna Cynthia Breazeal och Charles Kemp1 hävdar att inom kognitiva system som utvecklas går man inte längs med en och samma gren i evolutionssystemet utan hoppar mellan olika grenar. Man försöker ta sig framåt i evolutionskedjan genom att hoppa från insekter till reptiler till råttor och hundar för att så småningom ha som mål att nå människans utvecklingsstadium. Mellan dessa arter finns enorma evolutionära hopp som är svåra att implementera. Breazeal och Kemp säger att evolutionen döljer sina spår väl och gör det oerhört svårt för forskare att följa i dess spår. De föreslår istället en annan väg, den ontogenetiska och påstår att det ontogenetiska perspektivets styrka ligger i att det är en syntes mellan många idéer och koncept som anses viktiga i design av autonoma system. Breazeal och Kemp argumenterar för att utvecklingspsykologin ger nya insikter i frågorna om kognitiv och beteende utveckling och de vill att man ska följa barnets utveckling som till skillnad från evolutionen är väldokumenterad. De vill bygga ett system som hanterar manipulation och social interaktion. Deras system, roboten Kismet har utformats för att klara av en basal interaktion med sin ”vårdare”. Denna interaktion är tänkt att utvecklas för att så småningom ske på samma nivå som interaktionen mellan en tvååring och dess vårdnadstagare. Kismets arkitektur och hur arbetet med Kismet går presenteras närmare i följande text. 1 An Ontogenetic Perspective to Scaling Sensorimotor Intelligence (1996) s. 4 (15) Artificiell Intelligens HKGBB0 HT 2002 2 Maria Johansson Social interaktion mellan maskin och människa Med social interaktion menas samspel mella n olika individer eller grupper. Människors sociala interaktion skiljer sig från interaktionen hos andra sociala djur som till exempel myror eller hundar. Människor förväntar sig att dela kontrollen av interaktionen med dem man interagerar med. (Detta utgör en fundamental skillnad mellan social interaktion och interaktion i den fysiska världen.) Människor förlitar sig på en mängd social mekanismer för att dela kontroll med varandra. Exempel på dessa mekanismer är dela uppmärksamhet och att turas om. En konsekvens av detta är att den sociala interaktion blir ömsesidigt reglerad – allt eftersom interaktionen fortgår responderar och anpassar varje deltagare sitt beteende efter den andre. Ett barn behärskar från födseln vissa proto-sociala responser eller reaktioner som tillåter barnet att visa sitt tillstånd till den vårdande vuxna. Dessa reaktioner kan delas in i fyra kategorier, affektiv, utforskande, skydds och reglerande. Affektiva reaktioner tillåter vårdaren att tillskriva barnet känslor. Utforskande reaktioner tillåter vårdaren att tillskriva barnet nyfikenhet, intresse och önskningar. Skyddsreaktioner håller barnet borta från farliga stimuli och resulterar i omtänksamma och skyddande reaktioner från vårdaren. Reglerande reaktioner uppehåller en lämplig miljö, som varken är överväldigande eller understimulerande för barnet. Dessa protosocial reaktioner har en kritisk roll i ett barns sociala utveckling. Dessa reaktioner möjliggör för barnet att uppvisa intentionalitet för vårdaren. Detta uppmuntrar i sin tur vårdaren att behandla barnet som en social varelse och att försöka etablera naturliga och dialoglika interaktioner. För en robot är förmågan att uppvisa intentionalitet väldigt viktig för att etablera naturliga, intuitiva flexibla och robusta sociala interaktioner med en människa. Detta för att intentionalitet för att agenten uppför sig naturtroget. Kismets arkitektur är också utformade med tanke på att Kismet ska kunna sända ut viktiga ledtrådar som speglar dess interna tillstånd och för att Kismet ska kunna avläsa sociala ledtrådar från omgivningen. Kismets starttillstånd ska efterlikna det tillstånd ett nyfött spädbarn befinner sig i. Kismet ska sedan med hjälp av en välvillig vårdare lär sig och utvecklas. Kismets inlärningsmål är att uppnå de förmågor som uppnås av ett barn under dess första levnadsår. s. 5 (15) Artificiell Intelligens HKGBB0 HT 2002 3 Maria Johansson Kismets arkitektur Kismet är uppdelad i fem huvudsystem: perceptionsystemet, uppmärksamhetssystemet, motivationssystemet, beteendesystemet och motoriska systemet. Kismets arkitektur är starkt influerad av koncept från psykologi, etologi och utvecklingspsykologi. Hur de olika delarna fungerar i detalj kommer jag snart gå närmare in på. Beskrivning av Kismets arkitektur http://www.ai.mit.edu/projects/sociable/kismet.html 3.1 Beräkningsprocesser Kismets system är implementerat som en agentbaserad arkitektur som enligt Breazeal 2 liknar system byggda av Blumberg och Maes. Den huvudsakliga beräkningsprocessen i systemets implementation är modellerad som en, transducer, en omvandlare. Dess aktiveringsenergi beräknas genom: j =1 x = ∑ w j ⋅ i j + b n Där ij står för input, wj är vikter, b är förspänning eller bias och n är antalet inputs. Vikterna kan vara antingen positiva eller negativa. En positiv vikt står för en uppmanande, exitatorisk, koppling och en negativ för en förhindrande, inhibitorisk, koppling. Processen är aktiv när aktiveringsnivån överstiger aktiveringströskeln. När en process är aktiv kan den utföra en speciell form av beräkning, skicka output signaler till sammanlänkade processer, sprida aktiveringsenergi till länkade enheter och/ eller uttrycka sig genom ett visst beteende. Aktiveringsenergin stimulerar vissa processer och samtidigt hämmar den andra. Aktiveringarna resulterar i en handling eller i att roboten uttrycker ett visst interntillstånd. Varje drift, känsla, percept, beteende eller motorisk process är modellerad som en speciell omvandlingsprocess, speciellt utformad för just sin roll i systemets arkitektur. 2 A Motivational System for Regulating Human-Robot Interaction (1999) s. 6 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson 3.2 Perceptionssystemet Det perceptuella systemet är ansvarigt för att konvertera sensoriska stimuli till meningsfull information som kan hjälpa roboten att välja beteende. Systemet är designat för att kunna urskilja såväl sociala som ickesociala stimuli, i form av ansikten och rörelser. Dessa stimuli registreras i form av percept som tas genom kamerorna i Kismets ögon. Perceptionssystemet fokuserar på det preattentiva och parallella steget hos mänsklig syn. Detta steg behandlar information om grundläggande visuella features som färg, rörelse och olika ledtrådar för djup. Perceptionssystemet behärskar både ansiktsigenkänning och rörelseuppfattning. Ansiktsigenkänningen avläser sociala stimuli från ansikten medan rörelseuppfattningen fungerar som både ett komplement för att öka ansiktsigenkänningens noggrannhet och som en indikator på ickesociala stimuli. 3.2.1 Ansiktsigenkänning Vid ansiktsigenkänning används en algoritm som kallas för ratio template. (Termen kan beskrivas på svenska som ett slags mönsterförhållande.) Tekniken är designad för att identifiera områden som sannolikt innehåller ett ansikte. Den är alltså inte designad för att säkert bestämma att det finns ett ansikte på en viss bild. Anledningen till att man valde ratio template algoritmen beror på flera saker. Det är en relativt enkel beräkning, vilket är nödvändigt för att kunna utföras inom en rimlig tid. Tekniken har dessutom visat sig fungera väl under olika sorters förhållanden. Den klarar alltså av ostrukturerade miljöer med varierande ljusförhållanden där människors ansikten kan vara vända åt alla möjliga olika håll. En annan fördel med algoritmen är att den erbjuder olika nivåer av biologisk plausibilitet. De olika mönster förhållandena kan antingen kodas in för hand eller så kan algoritmen läras adaptivt genom att den ”utsätts för” bilder av varierande kvalité. Ett mönsterförhållande består av områden och relationer. För varje målområde (som eventuellt innehåller ett ansikte) på bilden som ska analyseras gör man en mönsterjämförelse med hjälp av specifika jämförelseregler. Området ges sedan ett medelvärde som beräknas av de omkringliggande områdena. Relationer är jämförelser mellan de olika områdenas värden till exempel mellan råskalevärdet på det högra pannområdet i bilden och samma område i mönstret, eller mallen. Relationen är uppfylld om förhållandet mellan den första regionen och den andra regionen uppnår ett visst konstant värde. Antalet uppfyllda relationer fungerar som ett matchningsvärde för ett speciellt område. Ju fler uppfyllda relationer desto troligare är det att det finns ett ansikte där. Som systemet är implementerat idag så klarar roboten av att upptäcka ansikten på ett avstånd av tre till sex fot från roboten. Detta avstånd ansåg forskarna vara lämplig t för en studie om social interaktion ansikte mot ansikte. Avståndsrymden där roboten kan klara av att känna igen ansikten kan ökas enkelt genom att bygga in fler processorer i systemet. 3.2.2 Rörelseuppfattningsförmåga Rörelsedetektormodulen beräknar skillnaden mellan två bilder följandes efter varandra. Detta görs för att identifiera angränsande block av rörelse i det två bilderna. De fem största identifierade blocken av rörelse sänds genom en dual-portad RAM till motivationssystemet. Rörelsedetektorn tar emot en 128 x 128 stor digitalbild. De inkommna bilderna lagras i tre stycken rambuffertar. I den första bufferten lagras den inkomna bilden I0 , i den andra lagras den föregående, I1 och den tredje tar emot nästa bild. Det absoluta värdet av skillnaden mellan gråskalevärdena i varje bild ges tröskelvärden för att skapa en rårörelsebild (Iraw = T (|I0 – I1 | )). Rårörelsebilden bearbetas sedan för att filtrera bort högfrekvensbrus. Den filtrerade bilden segmenteras sedan i områden som avgränsas av den angränsande rörelsen. Bilden genomsöks sedan av en algoritm. Algoritmen markerar alla punkter som överstiger tröskelvärdet med en ”identifieringstaggning”. När alla områden som överstiger tröskelvärdet har getts en sådan taggning sorteras taggningarna baserat på antalet bildrutor taggningen markerar. Efter dessa beräkningar så skickas de fem rörelseblock som hade de högsta taggningarna till motivationssystemet. s. 7 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson 3.3 Uppmärksamhetssystemet För att roboten ska kunna dra nytta av kommunikations och sociala inlärningssituationer är det viktigt att människa och robot ser samma sorts perceptuella stimuli som intressanta. Detta för att de stimuli människan presenterar för roboten ska vara sådana som roboten drar till sig robotens uppmärksamhet. Människan skulle visserligen kunna lära sig vad som drar till sig robotens uppmärksamhet men eftersom Kismets beteende ska likna ett barns vill man att stimuli som är naturliga och intuitiva för ett barn även ska vara det för Kismet. Uppmärksamhetssystemets uppgift är alltså att likt ett barn, rikta resurserna för beräkningar och beteende mot framträdande stimuli. En komplex omgivning innehåller oändliga mängder information. Roboten ska kunna bedöma vart resurserna ska riktas och det är oerhört viktigt att detta sker i realtid. För att kunna bestämma vart resurserna ska riktas kombineras framträdande sensorisk information med influenser från motivationssystemet. Uppmärksamhetssystemets design har inspirerats av Guided search v2.0 av Wolfe3 . Wolfe presenterade detta som en möjlig modell för hur den mänskliga visuella sökningen fungerar. Kismets forskar team har utökat denna modell till att även hantera kameror i rörelse, uppgiftsbaserade dynamiska influenser och habitueringseffekter. Denna utökade modell delar in uppmärksamheten i en preattentiv och en attentiv process. Under den preattentiva processen sker sökningen parallellt. Roboten bearbetar då information som färger, rörelse och ledtrådar för djup. Men när ett stimuli kräver uppmärksamhet eller om ett mål upptäcks övergår roboten till sekventiell bearbetning och den attentiva processen. Den parallella sökningen hjälper till att guida uppmärksamheten i sökningen. Först skapas en mental representation över alla potentiella mål för uppmärksamheten. (Representationen fungerar som en bottom-up feature karta över den omgivning som ska genomsökas.4 ) Den attentiva processen utför sedan mer komplexa beräkningar som igenkänning av ansiktsuttryck, leta reda på ögonen eller identifiera ett visst objekt, allt inom en lokaliserad region av synfältet. Denna design gör att processen för uppmärksamheten blir enkel och tillräckligt snabb då den endast bearbetar de mesta framträdande ansikts och rörelsestimuli. De mest framträdande ansiktsstimuli beräknas som de bästa kvantitiva matchningarna mot relationsmönstret medan de mest framträdande rörelsestimuli beräknas som de fem största områden av rörelse följande efter varandra. Systemets design är gjord för att se till att roboten responderar på oväntade händelser, samtidigt som den inte ska reagera på varenda lite förändring i miljön. Forskarna som jobbar med Kismet anser också att människor med denna modell intuitivt ger rätt stimuli för att dirigera robotens uppmärksamhet. En modell av uppmärksamhetssystemet http://www.ai.mit.edu/projects/sociable/visual-attention.html 3 4 Wolfe (1994) refereras till i A context -dependent attention system for a social robot, Breazeal & Scassellatti Cognitive Psychology av Sternberg, J. s. 8 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson 3.4 Motivationssystemet Motivationssystemet är designat för att generera en interaktion mellan människa och robot som är analog med den mellan ett barn och den vuxen som har hand om den, vårdaren. Systemet är inspirerat av idéer från etologi, psykologi och kognitiv utveckling. Motivationssystemet består av drifter och emotioner. 3.4.1 Drifter Drifterna representerar robotens grundläggande behov. Det finns fyra stycken drifter. Den sociala driften som tillfredställer robotens behov att interagera, stimuleringsdriften som tillfredställer behovet att stimuleras, trötthetsdriften som tillfredställer robotens behov av vila och trygghetsdriften som tillfredsställer robotens behov av trygghet. De olika drifterna har tre grundläggande funktioner. För det första påverkar de vale t av beteende genom att prioritera att skicka aktiveringsenergi till vissa beteenden över andra. För det andra så påverkar de det emotionella tillståndet genom att skicka aktiveringsenergi till de emotionella processerna. Eftersom robotens känslor spegla s av de känslouttryck den gör så kontrollerar drifterna indirekt vilka uttryck roboten förmedlar. För det tredje så förser drifterna roboten med en kontext för inlärning. Roboten lär sig saker som tillfredställer dess drifter. Designen av drifternas system är starkt influerad av etologi vilket syns bl.a. in drifternas cykliska beteende. Precis som att till exempel en hunds hunger går i cykler. Den bli hungrigare och hungrigare tills den får mat och då avtar hungern och behovet att äta. Robotens drifter är uppbyggda på samma sätt. Det gör att om inte en viss drift stimuleras så ökar dess intensitet kontinuerligt tills den tillfredställs. En annan egenskap hos drifterna är deras homeostatiska natur. För att djur ska kunna överleva ska de kunna hålla en mängd av variabler inom rimliga gränser (till exempel föda, vätska, temperatur). På samma sätt förändras intensiteten hos drifterna beroende på robotens behov att tillfredställa sina behov och hur mycket de behöver tillfredställas. Varje drift har en önskad operationspunkt. Runt omkring den finns gränser för vad som är acceptabelt. Området inom dessa gränser kallas för den homeostatiska regimen. Så länge driften befinner sig inom de ramarna blir dess behov tillfredställda. Varje drift har en aktiveringsenergi som spänner mellan {-max, +max} där driftens storlek representerar dess intensitet. För en given drift innebär ett högt positivt värde understimulering av driften och ett högt negativt överstimulering. Man brukar säga att driften består av tre områden, det understimulerade, överstimulerade och det homeostatiska. 3.4.1.1 Den sociala driften En av robotens grundläggande behov är att vara social, vilket innebär att vara i närheten av och bli stimulerad av människor. Detta behov är viktigt för att påverka roboten att lära sig saker i en social kontext. När roboten är i extrempunkten för det understimulerade området är den ensam. Då agerar den för att skapa ögonkontakt med människor. Om behovet att vara social inte tillfredställs kommer driften att intensifieras mot det understimulerade området, där roboten är ledsen. Det motsatta extremfallet är när roboten är när roboten är överstimulerad. Då är den asocial och agerar för att undvika ögonkontakt. Roboten går mot det asociala området om någon överstimulerar den. Detta kan hända om man rör sig för mycket eller kommer för nära robotens kamera. s. 9 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson 3.4.1.2 Stimuleringsdriften Ett annat grundläggande behov är att stimuleras. Detta kan ske antingen genom den omgivande miljö eller genom vad Brazeal och Scassellatti 5 kallar för ”spontan självlek”. När roboten är i den understimulerade delen av driften är den uttråkad. Uttråkad blir den om den varit inaktiv eller inte blivit stimulerad under en viss tid. I den motsatta extremen, när roboten är överstimulerad, blir den förvirrad. Roboten blir förvirrad om den mottar mer stimulering än den klarar av att hantera, assimilera. När detta sker försöker roboten minska interaktionen med omvärlden genom att till exempel blunda eller vända bort huvudet. Brazeal och Scassellatti tror att den här driften kommer vara viktig för inlärningen i framtiden. Om interaktionen med omgivningen är förutsägbar blir roboten uttråkad vilket kommer få roboten att ”vilja” ägna sig åt nya aktiviteter. Därmed kommer den uppmana människan den interagerar med att komma med utmaningar i form av nya interaktioner. 3.4.1.3 Trötthetsdriften Den här driften skiljer sig från de andra genom att den låter roboten stänga ute omvärlden istället för att försöka reglera interaktionen med den. När roboten är ”vaken” mottar den upprepad stimulering från omgivningen. Allt eftersom tiden går närmar sig den här driften den utmattande delen av spektrum. När intensiteten går över ett visst tröskelvärde är det dags för roboten att sova. Brazeal och Scassellatti6 säger att detta i framtiden kommer användas som ett tillfälle för roboten att konsolidera sina inlärda förutseelsemodeller och integrera dem med resten av den interna kontrollstrukturen. Medan roboten sover återgår trötthetsdriften till det homeostatiska området och roboten vaknar. 3.4.1.4 Trygghetsdriften Inlärningen hos Kismet går ut på att den ska lära sig att förutse hur dess handlingar påverkar omgivningen. Om en inlärd förutseelse är sann kan roboten använda sig av den under den sociala interaktionen med omgivningen. Om kunskapen roboten då skaffar sig är sann befinner den sig i ett tryggt tillstånd och kan fortsätta att assimilera ny kunskap. Men om robotens modeller inte stämmer överens med verkligheten hamnar den i ett osäkert tillstånd. Den blir då tvungen att modifiera sina modeller för att på så sätt balansera trygghetsdriften. Det är på grund av denna drift som roboten klarar av en miljö där dess kompetens saktar få avancera. 3.4.2 Emotioner Emotioner har två funktioner för roboten. Det ena är att influera robotens emotionella uttryck genom att skicka aktivationsenergi till de motoriska processerna i robotens ansikte. Det andra är att emotionerna har en viktig roll i att reglera interaktionen som sker öga mot öga med ”vårdaren”. Den har då även en viktig roll vad gäller inlärningen i sådana situationer. Emotionerna eller känslorna är viktiga för att kommunicera statusen för robotens behov. Det emotionella systemet är starkt influerat av olika teorier om människors känslor. Den liknar mest Velasquez7 beskrivning. Kismet har flera olika känsloprocesser. Även då de är rätt olika mänskliga känsloprocesser så är de designade för att vara primitiva analoger , framförallt gällande ansiktuttrycken. Kismets känslor är alltså precis som människors, åtskilda från varandra. Varje känsla består av en familj av liknande känslor med olika intensitet. Till exempel består lycka av flera andra känslor som pendlar mellan nöjd (lägsta aktiveringsnivå för lycka) och extatisk (hög aktiveringsnivå). Aktiveringsnivån för varje känsla varierar mellan [0, max] där max är ett siffervärde som bestäms empiriskt. Mer om hur detta görs framgår inte i några publikationer angående Kismet. Känslor är alltid aktiva med de måste passera ett visst tröskelvärde innan de uttrycks externt i form av känslouttryck. När roboten uttrycker känslor reflekterar robotens ansiktsuttryck den nuvarande aktiverings nivån hos känslan. 5 Infant-like Social Interactions Between a Robot and a Human Caretaker (2000) Infant-like Social Interactons Between a Robot and a Human Caretaker (2000) 7 Modeling emotions and other motivations in synthetic agents (1996) 6 s. 10 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson När en känsla passerar över tröskelvärdet sjunker den sen sakta ner mot grundläget, om den inte får input från andra processer eller händelser, som håller värdet uppe. Robotens känslor är ett resultat av dess känslotillstånd. Känslotillståndet representeras som en punkt längs med tre axlar i tre dimensioner; arousal valens och stance. Arousal kan vara hög neutral eller låg. Valens kan vara positiv neutral eller negativ och stance är öppen neutral eller stängd. Området med dessa axlar brukar kallas för affect space, eller känslorymd. Känslotillståndet beräknas genom att summera data från beteendesystemet och data från de olika drifterna. Även percept kan bidra genom ”utlösningsmekanismer” (varje utlösningsmekanism har en associerad somatisk markeringsprocess som ger mekanismen värden för arousal valens och stance). Hur påverkar då känslotillståndet beteenden och ansiktsuttryck? Jo, området inom de tre axlarna, känslorymden delas in i olika känsloområden. Varje område är karakteristiskt för en typisk känsla hos människor. Lycka karakteriseras till exempel av positiv valens och neutral arousal. Den region vars centrum är närmast det nuvarande känslotillståndet sägs vara aktiv. Känslornas intensitet, det vill säga vad ansiktet gör för känslouttryck är proportionell mot avståndet mellan det nuvarande känslotillståndet och centrum för det aktiva känsloområdet. Det finns åtta känslor implementerade i Kismets system, var och en som en separat process. Känslorna ilska, avsky, rädsla, lycka och ledsamhet är analoger till människans primära känslor. De sista tre är enligt Breazeal8 kontroversiella att klassificera men har en viktig roll inom inlärningen och den social interaktionen mellan en vuxen och ett barn. Därför har man ändå valt att implementera dem i systemet. Dessa känslor är överraskning intresse och excitement. lugn ilska glädje sorg Roboten är även implementerad till att kunna känna smärta. Det sker när det kommer information från perceptionsprocesserna som säger att signalen är för stark. Det kan till exempel bero på att en stark lampa skiner på robotens kamera så den blir ”förblindad” eller så kan det vara ett ljud som är så starkt att roboten inte kan höra något annat. Detta resulterar i att robotens nivåer för ilska och ledsamhet ökar så att roboten visar tecken på att inte må bra. Detta kan åtföljas av skyddsmekanismer som att blunda eller vända öronen bort från ljudkällan. De olika känslorna kan påverka varandra. Anledningen till detta är att hindra konflikterande känslor från att vara aktiva samtidigt. Detta implementeras genom ömsesidiga förhindrande kopplingar mellan känslorna. Sådana kopplingar finns till exempel mellan lycka och sorgsenhet, lycka och avsky och lycka och ilska. 3.5 Beteendesystemet Kismets beteendesystem är designat så att Kismet ska utföra beteenden som liknar ett barn och sådana beteende som starkast uppmuntrar människor att interagera med roboten som om den vore ett barn. Det är också tänkt att människorna ska tillskriva roboten avsiktlighet. Robotens interntillstånd består av känslor, drifter, aktiva beteenden och ett beteendes beständighet. Interntillståndet bestämmer tillsammans med den varseblivna omgivningen (tolkad genom utläsningsmekanismerna) vilka beteenden som ska bli aktiva. När ett beteende är aktivt kan det påverka både hur roboten rör sig (genom att påverka de motoriska processerna) och det nuvarande ansiktsuttrycket (genom att påverka arousal och valens aspekterna i det emotionella systemet). 8 A Motivational System for Regulating Human-Robot Interaction (1999) s. 11 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson Beteenden kan även påverka perceptionen genom att styra roboten till att fördragsvis uppmärksamma stimuli som är relevanta för den dåvarande uppgiften. Kismets olika beteende är ordnade i en heterogen hierarki med löst ordnade lager eller nivåer. På varje nivå är beteenden grupperade i så kallade cross exclusion groups CEGs. De olika grupperna representerar de olika strategierna för att tillfredställa förälderns (beteendet på nivån ovanför) mål. Vilket beteende som ”vinner” inom varje CEG beror på det dåvarande tillståndet hos robotens känslor, drifter och percept. Det vinnande beteende kan skicka vidare aktiveringsenergi till dess barn (nivå 0 eller 1 beteende) eller aktivera motoriska färdigheter (nivå två beteende) Det vinnande beteendet påverkar känslotillståndet genom att påverka det mot en positiv valens när beteende är framgångsrikt och mot en negativ valens om beteendet inte är det. Detta medför att roboten visar glädje om den lyckas och visar ökad frustration ju längre det tar det aktiva beteendet att nå sitt mål. Mål för beteenden representeras ofta i perceptuella termer. Till exempel så är målet för seek person beteendet att ett stimulus i form av ett ansikte ska dyka upp i synfältet. Roboten kommer att utföra visuell sökning tills detta sker. Konkurrens mellan de olika beteenden på toppnivån representerar val på globala nivån, vilken drift som behöver regleras. Konkurrensen på nivå ett representerar strategier för att tillfredställa en viss drift. Nivå två representerar subfunktioner eller uppgifter. Toppnivån tar emot aktiveringsenergi beroende på intensiteten hos den associerade driften. I toppnivån är alla beteenden medlemmar av samma CEG. Det medför att roboten bara kan tillfredställa en drift åt gången. Beteendet ser också till att skicka värdena för arousal och valens hos drifterna till känslosystemet. Detta kan bara ske om ett beteende är aktivt vilket medför att endast den drift som för tillfället förändras kan påverka robotens ansiktsuttryck. Anledningen till detta är att det ska vara lättare att tyda robotens signaler och därmed kunna förstå dess motivationstillstånd. Vilket behov som vinner på nivå ett beror på dåvarande percept, drifter och känslor. Till exempel så är avoid person beteendet mest relevant om den sociala driften är överstimulerad och någon stimulerar roboten för häftigt. För att styra robotens uppmärksamhet mot de stimuli som är mest relevanta för tillfället kan det aktiva beteende på nivå ett påverka uppmärksamhetssystemet. På nivå två utförs under funktionerna. Om beteende seek person aktiveras på nivå ett kan roboten göra två saker beroende på inkomna percept. Om roboten kan se ett ansikte aktiveras orient to face beteendet och om den inte kan det aktiveras look around beteende. s. 12 (15) Artificiell Intelligens HKGBB0 HT 2002 3.5.1 Maria Johansson Socialisera. När den sociala driften hamnar under den homeostatiska nivån, det vill säga närmar sig ensamhet, blir behovet att socialisera allt mer påtagligt. När aktiveringsnivån överstiger tröskelvärdet och roboten kan interagera med någon öga mot öga aktiveras socialiserings beteendet. Beteendet fortsätter vara aktivt så länge det håller sig inom det homeostatiska området, det vill säga så länge interaktionen hålls på en lagom nivå. Om interaktionen är för stark sjunker den sociala driften under den homeostatiska nivån och roboten hamnar i ett asocialt tillstånd. Intensiteten hos socialiserings driften kan bara återställas medan beteendet är aktivt. 3.5.2 Leka. När stimuleringsdriften hamnar under den homeostatiska nivån och alltså närmar sig det uttråkade området, blir behovet att stimuleras allt starkare. Roboten blir uttråkad och lekbeteende aktiveras. Lekbeteendet syftar till att höja stimuleringsdriften så att robotens tillstånd närmar återgår till den homeostatiska nivån. Beteendet är aktivt så länge stimuleringsdriften hålls inom det homeostatiska området, det vill säga interaktionen inte är för intensiv så roboten blir förvirrad. 3.5.3 Sömn. När trötthetsdriften överstiger den homeostatiska nivån aktiveras sömnbeteendet. Medan roboten sover återställs robotens trötthetsdrift och när den är återställd stoppas beteendet och roboten vaknar. Under sömnen så återställs även robotens övriga drifter till den homeostatiska nivån. Därav kan man kalla sömn beteende som någon form av skyddsmekanism. Om ett beteende inte tillfredställs blir roboten först arg och kan sedan falla i sömn. Detta kan ses som ett försvarsbeteende och ger möjlighet för roboten att själv reglera sina drifter. Detta beteende finns även hos små barn. 3.6 Motoriska systemet Som jag tidigare berättat så uttrycker Kismet sina känslor genom motoriska färdigheter. Kismets motoriska funktioner hanterar rörelser för öronen, ögonbrynen, ögonlocken, och munnen. De rörelser och uttryck Kismet gör är tänkt att efterlikna mänskliga, med ett undantag. Kismets öron följer istället en hunds rörelsemönster. Kismets öron har två frihetsgrader. Han kan lyfta öronen och vifta med dem. Om Kismet till exempel vill uttrycka intresse höjer han öronen medan han för att uttrycka ilska fäller bak dem för att på så sätt likna ett förargat djur. Kismets ögonbryn kan antingen sänkas eller lyftas eller böjas. Kismet höjer och sänker ögonbrynen i frustration och bågar ögonbrynen i förvåning. Han kan även höja den innersta kanten av ögonbrynen för att på så sätt uttrycka sorg. Kismets ögonlock och likaså mun, kan öppnas och stängas. Ögonlocken kan öppnas och stängas oberoende av varandra vilket möjliggör för roboten att blinka med ett eller båda ögonen samtidigt. Läpparna kan utöver normaltillståndet uttrycka ett leende. Det motoriska systemet får input från både känslosystemet och beteendesystemet. Känslotillståndet framkallar ansiktsuttryck som motsvarar den känsla som för tillfället är aktiv. Beteenden på nivå två i beteendesystemet framkallar motoriska färdigheter så som lookaround, look away, greet och orient. Look around innebär att roboten rör på ögonen för att uppnå ett nytt visuellt sceneri. Look away innebär att roboten vänder ansiktet bort från ett irriterande stimuli. Greet innebär att roboten viftar på öronen samtidigt som den fixerar blicken för att hålla ögonkontakt med en person. Orient innebär att roboten rör på nacken samtidigt som den håller kvar blicken på föremålet eller personen. Roboten orienterar sig mot stimulit för att uppnå något som Breazeal kallar för mutual regard. (how to build robots…) Varje dimension i Kismets känslotillstånd (arousal, valens och stance) mappas till en uttrycks rymd där varje dimension har ett karakteristiskt ansiktsuttryck för varje extrem värde. s. 13 (15) Artificiell Intelligens HKGBB0 HT 2002 Maria Johansson Kismet har sex prototypiska uttryck, för hög eller låg arousal, negativ eller positiv valens och för öppen eller stängd stance. Dessa sex uttryck spänner över hela Kismets uttrycksrymd. Varje dimension ändrar på de flesta sakerna i ansiktet på något sätt. Däremot ändrar vissa dimensioner mer på en specifik sak i ansiktet, än vad andra dimensioner gör. Till exempel så har valens starkast påverkan på läpparnas böjning, men det påverkar också öronens, ögonlockens, ögonbrynens och käkarnas position. Fördelen med att låta Kismet ha en uttrycksrymd är att det tillåter Kismet att visa distinkta och lättförståeliga uttryck som är konsistenta med dess känslotillstånd. s. 14 (15) Artificiell Intelligens HKGBB0 HT 2002 4 Maria Johansson Referenser Breazeal, C & Scassellati, B . (1999), ” A context-dependent attention system för a scoial robot”. Proceedings of the International Joint Conference on Artificiall Intelligence (IJCAI99) Breazeal, C. (1999), ”Robot in society, friend or appliance?”. http://www.ai.mit.edu/projects/kismet Breazeal, C. and Scassellati, B. (1999), "How to build robots that make friends and influence people". IROS99 Breazeal(Ferrell), C. and Scassellati, B. (2000), "Infant-like Social Interactions Between a Robot and a Human Caretaker". Breazeal(Ferrell), C. (1998), "Early Experiments using Motivations to Regulate Human-Robot Interaction". Proceedings of AAAI98 Breazeal(Ferrell), C. (1999), "A Motivational System for Regulating Human-Robot Interaction". In Proceedings of AAAI98, Madison, WI. 54-61. Brooks, R., Breazeal(Ferrell), C., Irie, R., Kemp, C., Marjanovic, M., Scassellati, B., and Williamson, M. (1998), "Alternative Essences of Intelligence"". Proceedings of AAAI98 Ferrell, C. and Kemp, C. (1996), "An Ontogenetic Perspective to Scaling Sensorimotor Intelligence". 1996 AAAI Fall Symposium, AAAI Press. 45-49. Scassellati, B. (1998), "Eye Finding via Face Detection for a Foveated, Active Vision System'', Proceedings of AAAI98, Sternberg, R. (1999) Cognitive psychology. Harcount Brace College Publishers Velasques, J. Modeling emotions and other motivations in synthetic agents. Proceedings of AAAI http://www.ai.mit.edu/projects/sociable/xxx s. 15 (15)