Dialogsystem del 1 - Agenter och dialog Staffan Larsson Pragmatik VT04 Agenter (Wooldridge & Jennings) Vad är en (artificiell) agent? • beteendebaserad defintion • autonomi: – agenter handlar utan direkt inblandning av människor eller andra, och har kontroll över sina egna handlingar och sitt eget interna tillstånd • social förmåga: – agenter interagerar med andra agenter (inkl. människor), bl a med hjälp av språk • reaktivitet: – agenter uppfattar sin omgivning (den fysiska världen, ett grafiskt användarinterface, internet...) och reagerar på förändringar i omgivningen • proaktivitet: – aganter reagerar inte bara på omgivningen, utan är också kapabla till målinriktat beteende och kan ta initiativ Två huvudtyper av ramverk för artificiella agenter • ”Deliberative” – en agent har en explicit representerad symbolisk modell av världen – beslut fattas genom logiskt slutledning (mönstermatchning, symbolmanipulation) – teoribaserade – Exempel: General Problem Solver (Newell & Simon) • Reaktiv – – – – ingen symbolisk modell ingen komplex symbolprocessning Exempel: situerade finita automater (Rosenschein & Kaelbling) tenderar att vara ad hoc • det finns ocskå hybridteorier – ett reaktivt och ett deliberativt lager • Är människor reaktiva eller deliberativa? Eller kanske hybrider... Attityder för deliberativa agenter • Privat • Social • Informationsattityd – kunskap / tro • Proattityd – handling, mål Reaktivitet • Perception – agenter uppfattar världen genom sinnesorganen, vilket ger upphov till kunskap / trosföreställningar om världen • Privata informationsattityder – trosföreställningar (beliefs, B) – kunskap (sann berättigad tro) • Reaktion – kräver förmåga att agera Proaktivitet • Initiativ – Agenter har behov, önskningar och avsikter och försöker ofta ändra världen utgående från dessa • Kräver – förmåga att planera – förmåga att bestämma sig • Privat proattityd: intention Autonomi • agenter handlar utan direkt inblandning av människor eller andra, och har kontroll över sina egna handlingar och sitt eget interna tillstånd • Privata attityder (info- och proattityder): – trosföreställningar (beliefs, B) – önskningar/vilja (desires, D) – intentioner (I) Social förmåga • Människor är också sociala varelser; de står i sociala relationer till varandra och agerar utifrån dessa • Sociala informationsattityder: – delad tro/kunskap (shared belief), • Sociala proattityder – skyldigheter (obligations) – åtaganden (committments), – rättigheter (rights) (?) Dialog •Kunskap för dialogagenter •Informella approacher •Formella ramverk Typer av kunskap som behövs för att kunna delta i en dialog • sociala informationsattityder (delad kunskap) • statisk – generell världskunskap för att tolka yttranden – aktivitetsspecifik världskunskap – språklig kunskap; förmåga att tolka och konstruera yttranden, inkl. kunskap om talakter och dialogspel • dynamisk – privata och sociala attityder – dialogmodell; ``dialogprotokoll'’: håller reda på gemensamma antaganden, aktuella frågor, skyldigheter, referenter mm. Hur ska kunskap representeras? • Kunskapsrepresentationsspråk, t ex FOL, semantiska nätverk, frames... • Kunskapsbas = mängd av statser + inferensregler • ontologier / typhierarkier (för begreppskunskap) • Hur mycket och vilken typ av kunskap som behövs beror på dialogtyp • enkel -> komplex – – – – – – – – call routing tidtabellsupplysning databassökning programmera video instruktionsdialog (t ex ge vägbeskrivning) förhandling planera framtida aktivitet vardagligt småprat (?) Informal approaches to dialogue modelling • speech act theory (Austin, Searle, ...) – utterances are actions – illocutionary acts: ask, assert, instruct etc. • implicature (Grice) – relating utterances to context, implicit information • dialogue games (Sinclair & Coulthard,...) – structure of dialogue segments (rather than separate utterances) – can e.g. be encoded as regular expressions or finite automata • qna-game -> question qna-game* answer • discourse analysis (Schegloff, Sacks, ...) – turn-taking, pre-sequences etc. Ramverk för dialogagenter • Logikbaserade – Rationalitetsaxiom + inferens – axiomatiserad talaktsteori (i modallogik) – problem med komplexitet och avgörbarhet • Planbaserade – Planering & planigenkänning – talakter som planer – problem med komplexitet • Dialoggrammatik – dialogspel som finita automater genererade av grammatik – ingen information i tillstånd • Informationstillstånd – dialogdrag, dialogspel, uppdateringsregler – variabel komplexitet deliberativ <-> reaktiv • Dessa kan kombineras! Agenter i dialog (Traum 1999) Översikt över forskning • En (artificiell) dialogagent kan – interagera och kommunicera med andra agenter på ett koherent sätt – delta i dialoger (d v s kommunikativa utbyten med en längre sekvens av yttranden) om ett givet ämne med avsikten att uppnå ett gemensamt övergripande mål • Yttranden ändrar – mentala tillstånd – kontexten och dialogtillståndet • Dialog är såpass komplicerat att det går utöver vad samtida agentteorier klarar Agenter & talaktsteori • TA gör det möjligt att betrakta kommunikation mellan agenter i ett generellt ramverk för agenters handlande • MEN i relation till ”vanlig” agentteori skulle TA kräva en mer uttrycksfull logisk formalism för handlingar – flera agenter – samtidig och fallibel handling Planbaserade approacher till talaktsteori • Bruce (1975) – planering av yttranden – attityder: belief, want, intention • Cohen & Perrault (1979) – planering av yttranden – attityder: belief, want • Allen & Perrault (1980) – igenkänning av indirekta talakter • Hinkelman (1990) – lingvistiska info + planer för att korrelera form och funktion (d v s känna igen talakter) Ickemonotona approacher (varianter av logikbaserade app.) • Perrault (1990) – defaultlogik för talaktsteori – defaulteffekter av talaktsoperatorer följer om inget i kontexten motsäger dem – ej direkt implementerbar; kräver komplett indutivt inferenssystem • Appelt & Konolige (1988) – omformulering av Perrault i ”autoepistemisk logik” – implementerbart • McRoy & Hirst (1995) – abduktion för produktion och igenkänning av indirekta talakter Andra logikbaserade approacher till talakter • problem med STRIPS: – tid & förändring representeras inte i tillräcklig detalj; operatorernas semantik oklar – kraftfullare handlingslogik krävs, med tydlig semantik • BDI-baserade logiska ramverk: – Cohen & Levesque – Sadek BDI-baserade logiska ramverk: Cohen & Levesque (1990) • detaljerad dynamisk modallogik för att beskriva handlingar och mentala attityder • semantik för logiken i termer av möjliga världar • attityder: beliefs, goals • effekter av illokuta akter härleds från generella principer för rationell kompetens – formaliserade som axiom i logiken • logiken används för att beskriva agenter och deras handlingar – ej som resurs för agenterna själva BDI-baserade logiska ramverk: Sadek • liksom Cohen & Levesque: logik för handlingar, möjliga världar-semantik • logiken används som resurser av agenter • implementerat i dialogsystem Problem med Cohen & Levesque, Sadek (enligt Traum) • logiskt allvetande agenter – om en sats p följer logiskt från vad A tror, så tror A på p – om man tror på en tautologi så tror man t ex på alla matematiska sanningar • logiken för tid och handlingar fortfarande inte kraftfull nog för att modellera t ex överlappande tal • privata attityder (belief, goal, intention) räcker inte för att modellera talakter • vi behöver även sociala attityder! Talakter och dialog • Tidigare nämna teorier fokuserar på isolerade satser • I dialog kombineras yttranden i en koherent interaktion för att uppnå ickekommunikativa mål • Utvidga tidigare approacher till dialog – planbaserade – logikbaserade Planbaserad dialogteori: Litman & Allen (1985) • utvidgning av Allen & Perrault • dialoger, ej bara enstaka yttranden • två typer av planer – domänplaner för att samarbeta för att uppnå mål – diskursplaner för att hantera dialogen; oberoende av domän • metaplaner; har andra planer som argument • kan redogöra för längre yttrandesekvenser, t ex klargörande subdialoger Logikbaserad dialogteori: Cohen & Levesque (1991) • axiom för rationellt beteende i dialog • bekräftelse som ”joint action” • sociala (gemensamma) handlingar – saker man gör tillsammans • social proattityd: joint intention (delad avsikt) • Dock: – oklart hur logiken relaterar till faktiska yttranden Interaktion på flera nivåer • Ide: modellera dialog som handlingar på flera nivåer – ej bara satsnivå (talakter) • Föregångare: – Dialogspel, Sinclair & Coulthard (1975) – 4 ”ranks” • • • • act move: användning av acts i vissa syften exchange: sekvens av flera moves transaction: flera exchanges • Kombinera dialogspel och planer? – Mann, Kowtko, Isard mfl (HCRC, Edinburgh) – planering på spelnivå • 4 talaktsnivåer (Traum & Hinkelmann 1992) – turtagning – ”grounding” • bekräftelse att man förstår varandra – ”core speech acts” (traditionella illokuta akter) • Exempel: Inform, YNQ, Check, Eval, ReqRepair, RecAck • en CSA involverar flera agenter, eftersom de måste bekräftas – argumentationshandlingar (retoriska handlingar) • Exempel: Elaborate, Summarize, Clarify, Q&A, Convince, Find-Plan Är talakter en användbar entitet i kopplingen mellan yttranden och effekter? • mot: – svårt komma överens om en uppsättning talakter – yttranden är multifunktionella; ett yttrande kan förändra kontexten på flera olika sätt samtidigt • kan lösas genom att ha flera nivåer av talakter – är talakter objektiva eller subjektiva? • för: – talakter förenklar planering; ”buntar ihop” kontextuppdateringar till hanterliga entiteter – kan vara lättare att känna igen talakter än att resonera direkt från yttrande till kontextuppdatering Skiss till en teori för talakter för kollektiv av sociala agenter • För att en talaktsteori ska kunna hantera dialog behöver den följande utvidgningar: – förmåga att resonera om tid • inklusive överlapp och samtidig handling – förmåga att resonera om osäkra handlingar • som kan misslyckas och ha oväntade resultat – hantering av kollektiv av agenter • samarbete – kunna fungera i realtid – koppla ihop planering och handling • Kollektiv av agenter -> sociala attityder • Kan sociala attityder defineras i termer av privata attityder? • Delad tro (mututal belief) • Skyldigheter (obligations) • Delade planer (shared plans) • Delade intentioner (joint intentions) Formuleringar av mutual belief / knowledge • • Iterativ (Schiffer) – K*S Ap omm KSp & Kap & KSKAp & KAKSp & KAKSKAp & ... Fixpunkt (Harman) – En grupp agenter tror gemensamt p omm • 1. varje agent tror p och • 2. alla tror att (1) och (2) • Delad situation (Barwise) – En grupp G vet gemensamt X omm något ”state of affairs” A gäller, sådant att • alla i G har skäl att tro att A gäller • A indikerar för alla i G att alla i G har skäl att tro att A gäller • A indikerar för alla i G att X • Belief spaces (Cohen) – varje ”belief space” innehåller en mängd av propositioner som en agent tror på – nästade beliefs (A tror att B tror...) representeras av nästade belief spaces – det djupast inbäddade belief space inbäddar sig självt • Mutual belief space (Bruce & Newman) – ett separat belief space representerar mutual beliefs; i detta finns inga nästningar Hur kan mutual belief uppnås? • Man kan inte generellt sett anta att alla handlingar lyckas • Innan man kan veta att MB uppnåts krävs någon form av bekräftelse, tex ”mm” • Ändå har de flesta formaliseringar av talakter antagit att mutual belief är en direkt effekt av enskilda talakter (jfr STRIPS) • Detta får olyckliga konsekvenser: – agenter kan få felaktiga uppfattningar om en annan agents tillstånd – agenten kan inte känna igen bekräftelsehandlingar (feedback) eller ”förstå” varför bekräftelser behövs • Men om varje talhandling måste bekräftas av den tilltalade så är talakter kollektiva handlingar; båda måste bidra för att handlingen ska kunna slutföras Skyldigheter (obligations) • Social proattityd (obligation to do A) – motsvarande informationsattityd: committment • Krävs (enligt Traum) för att formalisera effekterna av vissa talakter • Vad en agent borde göra, givet sociala normer • Dessa normer kan formaliseras i ”deontisk logik” (von Wright); en typ av modallogik • Normerna är inlärda, kulturella, och delade av medlemmarna i en social gemenskap • Agenter kan välja att ignorera skyldigheter om de krockar med agentens mål • Kan ej reduceras till (definieras i termer av) privata attityder! • Igenkänning av intentioner behövs (enligt Traum) inte vanligtvis i vardaglig kommunikation • Det räcker att man uppfyller sina skyldigheter! TALAKT S lovar A SKYLDIGHET S uppnår A S ber om A H accepterar eller förkastar A H svarar på Q S frågar Q Delade planer och intentioner • Modellerar ett kollektivs benägenhet att handla • Intuition: koordinerade handlingar kan inte förklaras enbart utifrån individuella intentioner • Hur styrs individuella handlingar av kollektiva attityder? • Konvention (Lewis) – En regelbundenhet R i beteendet hos ett kollektiv sådan att • alla följer R • alla förväntar sig att alla andra ska följa R • alla föredrar att följa R, givet att alla andra gör det – Exempel: att köra på höger sida • Delade planer (SharedPlans, Grosz&Sidner 1986) – en mängd mutual beliefs om intentioner hos inblandade agenter, och exekverbarhet hos handlingar • Joint intentions (Searle) – Searle menar att ”vi-intentioner” ej kan reduceras till individuella intentioner • Multi-agent plans (Traum 1994) – En grupp agenter A exekverar en multiagentplan MP omm 1. varje agent Ai A exekverar en en-agentsplan MPi som utgörs av Ai’s handlingar i MP plus att de andra agenterna exekverar sina delar 2. Varje agent Ai A är skyldig att utföra MPi som en del av MP Att definiera talhandlingar • Nödvändiga och tillräckliga villkor • Hur akten kan användas i planering – Perlokuta effekter kan ej förutses och kan därmed inte ges en uttömmande definition – Dialog är interaktiv -> ej meningsfullt planera långt framåt • Hur akten kan kännas igen – Ska man försöka känna igen akten eller bara intentionerna / planerna bakom yttrandet? – Handlingar är kanske inte alltid avsiktliga – Dialog är interaktiv -> om man är osäker kan man fråga! – Hur stor del av planen behöver man känna igen? Dialogaktsigenkänning och intentionsdjup • igenkända mål (intentioner) kan vara på olika plan: – – – – aktivitetsnivå: planera resa, bestäm pris spelnivå: få information om X dragnivå (talaktsnivå): få svar på en fråga grounding: fastställa om P nu är gemensam kunskap • Hur ``djupgående'' intentioner behöver kännas igen? • ”Vad kostar en biljett till Paris?” – – – – – – – A vill få mig att tro att A vill ställa en fråga A vill ställa en fråga A vill ha svar på sin fråga A vill använda svaret för att kunna resa till Paris A vill resa till Paris A vill resa till Paris på en nöjesresa A vill vara glad Dialogspel för agenter: Conversational Game Theory (Lewin 2000) Informationstillstånd och dialogtillstånd • Dialogtillstånd – ett tillstånd i en finit automat; ingen information lagrad i tillståndet • Informationstillstånd – ett ``dialogprotokoll'' som håller reda på gemensamma antaganden, aktuella frågor, skyldigheter, referenter mm. – kan även inkludera privata och sociala attityder – både privat och delad information – kan t o m inkludera dialogtillstånd (t ex ett heltal som refererar till ett tillstånd i en automat) CGT & dialogspelsbaserade agenter • Teori som tillämpar dialoggrammatik i dialogsystem • Använder också informationstillstånd • Spel representerade som RTNs (Recursive Transition Networks) – d v s bågar i ett spel kan vara associerade med ett annat spel • Kombineras med enkelt informationstillstånd/kontext <Pd, Cm>: – Pd: Propositions under discussion • < P, d(P) >, där d(P) är ett fokuserat element i P – Cm: Commitment slate • Moves & games är funktioner som uppdaterar kontexten • Moves uppdaterar Pd • Games uppdaterar Cm – committments: ej mentala attityder utan ”publika objekt” som man kan bindas till – social attityd • Ej som i t ex Cohen & Perrault! – förvillkor och effekter i termer av mentala tillstånd, privata attityder Move types (urval) • qw(p): wh-fråga – Pd := < p, 0 > • rw(p): svar på wh-fråga – Pd := < p, 0 > • ack: acknowledgement; Pd oförändrad • cnf(c): confirmation – Pd före = < P, _ > – Pd := < P, c > • Ryes: ja-svar ; Pd oförändrad • Rno: nej-svar ; Pd oförändrad Games • Att spela dialog involverar ”parsning” av spel m h a dialoggrammatiken – parallell, inkrementell parser – rankar möjliga parsningar m h a en preferensmekanism – detta sköts av en ”monitor” • Men agenten måste också producera egna yttranden – sköts av dialogbidragsgenerator – genererar output om monitorn indikerar att det är systemets tur – vilken output som väljs beror dels av speltillstånd, dels av informationstillstånd QW(p) qw rw 0 1 ack 2 3 Ryes|Rno|Rmod qw-r cnf 4 QW(p) -> {qw | qw-r} rw (cnf {Ryes | Rno | Rmod}) ack ... Exempeldialog game state infostate A: Where do you want to travel? 1 Pd = <{dest(X)}, 0> Cm = {} B: To Exeter 2 Pd = <{dest(exeter)}, 0> A: Is your destination Exeter? 4 Pd = <{dest(exeter)}, dest(exeter)> B: Yes 2 A: Okay 3 Pd = Cm = {dest(exeter)} Uppgifter (2-4 sidor) • 10.1 Vilka egenskaper har en agent? Vilka attityder kan en agent ha, och hur hänger dessa samman med egenskaperna? (Wooldridge & Jennings) • 10.2 Beskriv de olika approacherna till att bygga artificiella dialogagenter (Traum, Lewin) – planbaserad – logikbaserad – tillståndsbaserad • 10.3 Vilken typ av information behöver en dialogagent hålla reda på i de olika approacherna? (Traum, Lewin)