Umeå Universitet, Institutionen för Datavetenskap Laboration 2 i Artificiell intelligens, 5p Hanledare: Therese Edvall och Daniel Ölvebrink Statistiska inlärningsmetoder Karin Landén och Andreas Marklund [email protected], [email protected] Statistiska inlärningsmetoder spelar en viktig roll inom många vetenskapliga, finansiella och industriella områden. Användningen av statistiska inlärningsmetoder sträcker sig från enkla beräkningar av medelvärden till konstruktion av komplexa strukturer som Bayesiska nätverk och neurala nätverk. Denna rapport behandlar olika former av statistiska inlärningsmetoder, från enklare nätverk till mer komplicerade neurala nätverk. Skillnader mellan lokaliserade och distribuerade nätverk tas också upp. 2 Statistiska inlärningsmetoder Innehållsförteckning 1. INTRODUKTION.................................................................................................................. 3 2. SYFTE OCH METOD ............................................................................................................ 3 3. OLIKA TYPER AV STATISTISKA INLÄRNINGSMETODER ....................................................... 3 4. INLÄRNING MED GÖMDA VARIABLER ................................................................................ 4 5. VAD ÄR ETT NEURALT NÄT? .............................................................................................. 4 6. DEN MÄNSKLIGA HJÄRNAN ............................................................................................... 4 7. NEURON ............................................................................................................................ 5 8. KOMPONENTER I ETT NEURALT NÄT .................................................................................. 5 9. VAD ÄR BRISTERNA? ......................................................................................................... 5 10. KONNEKTIONISM ............................................................................................................. 6 11. VON NEUMANN-ARKITEKTUR .......................................................................................... 6 12. GENERELL BESKRIVNING AV DEN FYSISKA STRUKTUREN HOS EN KONNEKTIONISTISK DATOR ................................................................................................................................... 6 13. SPELAR SKILLNADER I STRUKTUR ROLL I SYFTE ATT FÖRSTÅ ELLER FÖRKLARA INTELLIGENT BETEENDE? ...................................................................................................... 7 14. INLÄRNINGSMEKANISMER ............................................................................................... 7 15. VAD ÄR KONNEKTIONISM? .............................................................................................. 7 16. BACK-PROPAGATION I NÄTVERK SOM BESTÅR AV FLERA LAGER ..................................... 8 17. RECURRENT NETWORKS .................................................................................................. 8 18. LEARNING BY COMPETITION ............................................................................................ 8 19. INLÄRNING OCH MINNE ................................................................................................... 9 19.1. Associativt minne ..................................................................................................... 9 19.2. Semantiskt minne och gömda variabler ................................................................... 9 20. FÖRDELAR OCH NACKDELAR MED DISTRIBUERADE NÄTVERK ....................................... 10 21. REFERENSER ................................................................................................................. 11 Statistiska inlärningsmetoder 3 1. Introduktion Statistiska inlärningsmetoder spelar en viktig roll inom många vetenskapliga, finansiella och industriella områden. Användningen av statistiska inlärningsmetoder sträcker sig från enkla beräkningar av medelvärden till konstruktion av komplexa strukturer som Bayesiska nätverk och neurala nätverk (Russell & Norvig, 2003). Exempel på problem på vilka statistiska inlärningsmetoder kan tillämpas är att identifiera siffror i ett handskrivet postnummer utifrån en digitaliserad bild, att uppskatta mängden glukos en diabetikerpatient har i blodet utifrån ett infrarött absorptionsspektrum för prostatacancer baserat på kliniska och demografiska variabler (Hastie, Tibshirami & Friedman, 2001). 2. Syfte och metod Syftet med arbetet är att på ett pedagogiskt sätt förmedla den information som återfinns i kapitel 20 i Stuart Russells och Peter Norvigs bok ”Artificial Intelligence: A Modern Approach” samt ytterligare infomation inom ämnesområdet. Metoden vi använt oss av är en litteraturstudie av böcker som behandlar ämnet. 3. Olika typer av statistiska inlärningsmetoder Tillämpningen av statistiska inlärningsmetoder var till en början ett aktivt forskningsområde inom AI, men utvecklades efterhand till ett separat ämnesområde då den största delen av forskningen inom AI koncentrerades på symboliska metoder. Statistisk inlärning fortsatte emellertid att utvecklas inom områden som mönsterigenkänning (Russell & Norvig, 2003). Under senare delen av 1980-talet fick statistiska inlärningsmetoder ett uppsving i och med att Bayesiska nätverksmodeller introducerades. Bayesiska metoder reducerar inlärning till en form av Probabilistisk inferens. Observationer används för att uppdatera tidigare fördelningar av hypoteser. Bayesisk inlärning beräknar helt enkelt sannolikheten för varje hypotes, givet data från observationerna, och gör sedan förutsägelser utifrån detta. Skillnaden mot tidigare probabilistiska metoder är att förutsägelserna görs genom att använda alla hypoteser, viktade med deras sannolikheter, snarare än bara den hypotes som verkar bäst (Russell & Norvig, 2003). Bayesisk inlärning fungerar som en bra metod att implementera Ockhams Rakkniv men lyckas sämre med problem som har stora och komplexa hypotesrymder. I de flesta sådana fall måste approximationer eller förenklade metoder tillgripas. En vanlig approximation är att göra förutsägelser baserade på en enda hypotes, den mest sannolika. Maximum a posteriori (MAP) inlärning är ofta ett enklare sätt att angripa ett problem än Bayesisk inlärning. En ytterligare förenkling av statistisk inlärning är maximum likelihoodmetoden. Maximum likelihood-inlärning går ut på att välja den hypotes som maximerar sannolikheten av observerat data. I enkla fall, såsom linjär regression och helt observerbara Bayesiska nätverk, kan bra maximum likelyhoodlösningar lätt hittas. Naive Bayes-inlärning är en mycket effektiv teknik baserad på maximum likelihood. 4 Statistiska inlärningsmetoder 4. Inlärning med gömda variabler De inlärningsmetoder som diskuterats hittills har alla behandlat inlärning i helt observerbara fall. Många av de problem som uppstår i den verkliga världen har dock gömda variabler, dvs. variabler som inte är observerbara i den data som finns tillgänglig i inlärningsprocessen. Fig 1. Ett nätverk med gömda variabler (a) och utan (b). Exempel där gömda variabler finns representerade är i medicinska problem. Medicinska register innehåller ofta observerade symptom. Vilken behandling som använts och kanske resultatet av behandlingen, men de innehåller sällan någon direkt observation av sjukdomen själv. En tanke som kan tyckas rationell är ”om man inte har någon observation av sjukdomen, varför inte konstruera en modell som inte tar hänsyn till den?” svaret på denna fråga, vilket åskådliggörs i fig1., är att gömda variabler kraftigt kan reducera antalet parametrar som behövs för att beskriva ett Bayesiskt nätverk. Gömda variabler är viktiga men de gör också att inlärningsproblem blir mer komplicerade. Med hjälp av en algoritm kallad expectation-maximization (EM) kan dock maximum likelihood-lösningar hittas även om några variabler är gömda. Exempel på tillämpningar där EM-algoritmer kan användas är inlärning för Bayesiska nätverk med gömda variabler (Russell & Norvig, 2003). 5. Vad är ett neuralt nät? Ett neuralt nät, även kallat konnektionistiskt nät, är en artificiell representation av den mänskliga hjärnan som försöker simulera dess inlärningsprocess. Med termen artificiell menas att neurala nät är implementerade i datorprogram som kan hantera stora mängder av nödvändiga beräkningar under inlärningsprocessen. 6. Den mänskliga hjärnan Den mänskliga hjärnan består av ett stort antal neuron som behandlar information. Varje cell fungerar som en enkel processor och endast massiv interaktion mellan alla celler och deras parallella bearbetning gör hjärnans egenskaper möjliga. Statistiska inlärningsmetoder 5 7. Neuron Ett neuron består av en cellkärna och dendriter för inkommande information. Axon med dendriter för utgående information som skickas vidare till ihopkopplade neuron. Informationen transporteras mellan neuron genom elektrisk stimulans längs dendriterna. Inkommande information som kommer till neurons dendriter summeras ihop och sen levereras den längs neuronens axon till dendriterna i slutet. Där blir informationen överförd till andra neuron endast ifall stimuleringen har nått ett särskilt tröskelvärde. Om tröskel nås så blir neuronet tillsagt att aktiveras. Om stimuleringen är för svag avstannar transporten. I det senare fallet blir neuronet åtsagt att vara inhiberat. Kopplingarna mellan neuron är adaptiva, med det menas att kopplingarnas struktur ändras dynamiskt. Det är känt att hjärnans inlärningsförmåga baseras på denna adaption. 8. Komponenter i ett neuralt nät Det finns många typer av neurala nät, alla har i stort sett samma komponenter. Om någon försöker simulera den mänskliga hjärnan genom att använda ett neuralt nät, är det ganska uppenbart att stora förenklingar måste göras. Först och främst är det omöjligt att kopiera de parallella kopplingarna mellan alla neuron. Det finns emellertid datorer som har möjligheten att parallellprocessa. En annan förenkling är att datorers interna struktur inte kan förändras samtidigt som något utförs, och hur implementerar man ett elektriskt stimuli i ett datorprogram? Precis som den mänskliga hjärnan består neurala nät av neuron och kopplingar mellan dem. Neuronen transporterar inkommande information på deras utgående kopplingar till andra neuron. I neurala nät-termer är dessa kopplingar kallade vikter. Den elektriska informationen simuleras med särskilda värden som är lagrade i dessa vikter. Ett artificiellt neuron är väldigt likt ett biologiskt neuron i en cell och den fungerar på ett liknande sätt. Informationen sänds till neuronet på dess inkommande vikter. Detta input kommer av en propageringsfunktion som summerar värdet på alla inkommande vikter. Resultatvärdet jämförs med ett tröskelvärde från neuronets aktiveringsfunktion. Om input överskrider tröskelvärdet så blir neuronet aktiverat, om inte så blir det inhiberat. Om det aktiveras så sänder neuronet en output på sina utgående vikter till alla sammankopplade neuron. I ett neuralt nät är neuronerna grupperade i lager, så kallade neuronlager. Vanligtvis så är varje neuron på ett lager sammankopplat med alla neuron på nästföljande lager. Informationen i ett neuralt nät sprids från lager till lager, från input till output. Beroende på inlärningsalgoritmen så är det också möjligt att informationen propageras bakåt genom nätet. 9. Vad är bristerna? Neurala nät är konstruerade för att lösa problem som inte kan lösas genom konventionella algoritmer. Sådana problem är vanligtvis optimerings- eller klassificeringsproblem. Olika problemdomäner där neurala nät kan användas är bland annat mönsterigenkänning, bildprocessande, analys av tal, optimering, styrande av robotar och börsförutsägelser. Det finns många olika sorters neurala nät där var och ett av dem har olika alternativ, varje problemdomän har sin egen nättyp. Över lag kan man säga att neurala nät är väldigt flexibla system för problemlösning. En förmåga som borde nämnas speciellt är feltoleransen hos neurala nätverk. Detta betyder att om ett neuralt nät har blivit lärt inom ett specifikt problem som kommer det att kunna ge korrekta resultat, även fast problemet som ska lösas inte är exakt samma som den redan inlärda. Tänk dig exempelvis att ett neuralt nät lär sig att känna 6 Statistiska inlärningsmetoder igen mänskligt tal. Under inlärningsprocessen får en specifik person uttala vissa ord, dessa ord får sedan nätet lära sig. Om det lärt sig korrekt kommer det neurala nätet att kunna känna igen dessa ord även fast de är uttalade av en annan person. Men allt är inte guld som glimmar. Trots att neurala nät kan hitta lösningar till de svåra problem som är listade ovan, kan resultaten inte garanteras att bli perfekta eller korrekta. Det är bara approximationer till en önskad lösning och en speciellt fel blir alltid presenterat. Sammanfattningsvis så finns det problem som inte kan lösas korrekt av neurala nät. Ett exempel inom mönsterigenkänning kan vara en hjälp på vägen. Om du träffar en person som du tidigare sett, då brukar du vanligtvis känna igen henne/honom den andra gången, även fast hon/han inte ser ut på samma sätt som vid er första träff. Tänk er nu att ni tränar upp ett neuralt nät med ett foto av en person, detta foto kommer sannorlikt bli igenkänt av nätet. Om du lägger till mycket störningsmoment på bilden eller roterar några grader kommer igenkänningen förmodligen att misslyckas. Säkerligen så kommer inte någon någonsin utnyttja ett neuralt nätverk till att lösa en algoritm, av den enkla anledningen att det finns mycket bättre och snabbare algoritmer, men inom problemdomäner, som de tidigare nämnda, så är neurala nät alltid ett bra alternativ till existerande algoritmer och det är verkligen värt ett försök. 10. Konnektionism Vår beskrivning av den fysiska strukturen hos den konnektionistiska hjärnan är att den består av många funktionellt enkla men rikt kopplade celler. Varje cell tar emot många input, vissa excitatoriska, andra inhibitoriska. Dessa input summeras och ifall tröskelvärdet för excitation överskrids sprider sig aktiveringen till många andra celler. Denna förenklade beskrivning använder vi som arbetshypotes för lämplig nivå i syfte att förstå hjärnan som informationsprocessor. Motsvarande beskrivning av den fysiska strukturen hos en dator beskrivs vanligtvis med von Neumanns beskrivning. 11. von Neumann-arkitektur Två komponenter är essentiella, en CPU som är en mekanism som kan utföra aritmetiska eller logiska operationer seriellt. Alltså är en Von Neumann-dator en sekventiell maskin. Operationerna som utförs sparas i den andra komponenten, vilken är minnet. Naturen och sekvensen hos operationerna bestäms av program som också lagras i minnet. 12. Generell beskrivning av den fysiska strukturen hos en konnektionistisk dator En konnektionistisk dator består av ett set enkla men rikt kopplade processenheter. Varje enhet mottar input som summeras. Ett enskilt output härleds från den föregående summeringen och sprids till andra enheter. Största skillnaden mellan von Neumandatorn och den konnektionistiska datorn är att den senare opererar parallellt. För det andra är att minnet hos den konnektionistiska datorn inte består av ett register av platser som den gör i von Neumandatorn. För det tredje finns det inga övergripande kontrollerande program i den konnektionistiska datorn. Statistiska inlärningsmetoder Metafor Representation Process Kontroll Strategi Dator (von Neumann) Lokaliserad Seriell CPU Sekventiella operationer på symboler 7 Nervsystemet (Neurala nät) Distribuerad/lokaliserad Parallell Lokala begränsningar Likhetsbaserad Fig 2. Sekventiell arkitektur vs konnektionistisk arkitektur 13. Spelar skillnader i struktur roll i syfte att förstå eller förklara intelligent beteende? Är hjärnans fysiska struktur ett måste för existensen av kognitiva processer? I syfte att förstå kognition argumenterar många att skillnaden i struktur mellan hjärnan och datorer vi försöker modellera aspekter av kognition på, inte spelar någon roll. Enligt Church-Turings tes kan alla deterministiska formella system realiseras av en turingmaskin, och med det följer att varje konnektionistisk dator kan realiseras av en turingmaskin. I sådana fall borde inte struktur spela någon roll, i alla fall om man betraktar kognition som enbart en form av beräkning. Enligt physical symbol system (PSS) hypotesen å andra sidan är den essentiella egenskapen hos intelligens just symbolmanipulation. 14. Inlärningsmekanismer Den grundläggande beräkningsprocessen i en von Neumansdator, verklig eller virtuell, är en sekvens logiska operationer på symboler hämtade från minnet, vars resultat består i nya symboler som läggs in i minnet. Men hur karaktäriseras de grundläggande beräkningsprocesserna i en konnektionistisk maskin? Konnektionistiska datorer kan ej programmeras på konventionella sätt. Istället måste man manipulera sättet enheterna är kopplade och viktningarna mellan enheterna. I de nätverk där viktningarna är variabla finns möjligheten att ”lära” nätverket. Nätverket lär sig genom erfarenheter. 15. Vad är konnektionism? Konnektionism är ett försök att utforska beräkningsegenskaperna hos hjärnliknande mekanismer. Vissa som arbetar med detta anser sig modellera riktiga nätverk av riktiga neuron. Andra ser sina undersökningar som riktade mot att förstå beräkningsstrukturer direkt. Dessa har gemensamt att de anser att den fysiska strukturen är viktig när det gäller hjärnans beräknings- och psykologiska funktioner. Konnektionistiska scheman är välanpassade för problem som kräver multiple simultaneous constraint satisfaction. Multiple simultaneous constraint satisfaction är ”tydligt” en egenskap hos kognition. Konnektionism kan förklara inlärning, eller åtminstone beskriva enkla mekanismer som tycks förklara hur omfattande kunskap eller kontrollstrukturer kan uppkomma av att utsättas för omgivningen. 8 Statistiska inlärningsmetoder Ett minne är ett specifikt mönster av aktivering som kan initieras genom någon ledtråd. Minnet kan således ej sägas ha spatial lokalisering och en enhet i ett minne kan vara delaktig i många andra minnen. Enheter i konnektionistiska nätverk kan representera saker i världen. Representationen kan vara lokal eller distribuerad. Representationen för ett specifikt minne kan vara distribuerad över flera enheter, vilka för sig står för olika delar. Varje sådan enhet sägs vara lokal. Men det kan tänkas att dessa också är distribuerade över flertalet andra enheter också. Regelföljande beteende kan uppstå i nätverket utan att dessa regler uttrycks explicit. Nätverket kan även sägas ha en graceful degradation, vilket betyder att det vid skador inte slutar att fungera utan gradvis försämras. Nätverket fungerar således inte genom på eller av principen. 16. Back-propagation i nätverk som består av flera lager Back-propagation är en inlärningsteknik för flerlagersnätverk med perceptronliknande enheter. Nätet består av inputnoder som är kopplade till ett eller flera lager av gömda noder, vilka i sin tur är kopplade till outputnoder. Aktiveringen sprider sig enbart i en riktning, från input mot output. Därför är detta ett feed-forward nätverk. Enheterna är deterministiska snarare än stokastiska eftersom deras aktiveringsvärde inte varierar mellan olika tillfällen. Inputmönster appliceras och propageras (sprids) framåt i nätverket fram till outputnoderna. Fel beräknas baserat på skillnaden mellan aktuellt och önskat aktiveringstillstånd hos outputnoden. Därefter justeras viktningarna hos de enheter som är kopplade till outputenheten. Detta propageras rekursivt bakåt genom hela nätverket. 17. Recurrent networks Recurrent networks är flerlagersnätverk som tränas via back-propagation. Denna typ av nätverk har främst använts för modellering av olika aspekter hos språk. I dessa nätverk sprids aktiveringen inte bara framåt under en epok (ett svep) utan de vänds även tillbaka så att delar av nätverkets respons till givet stimulus på epok N blir del av epok N+1. Vid epok N aktiveras gömda noder, och aktiveringen passerar till output-noderna. Aktiveringen i epok N återanvänds till att bli del av epok N+1, vilket uppnås genom att ha oförändrad viktning av 1 på kopplingarna från de gömda noderna till speciella input-noder så kallade kontextnoder. På så sätt kan ett nätverk bli känsligt för temporal ordning i vilken input ges, eftersom varje svep delvis bestäms av responsen vid föregående svep. 18. Learning by competition Back-propagation är en form av övervakad, så kallad supervised, learning, vilket innebär att inlärningen kräver någon slags jämförning med ett lärar-input. Learning by competition är en oövervakad form av inlärning. Varje inputnod är kopplad till varje outputnod. Outputnoderna är även kopplade till varandra. Input är normaliserat så att den totala inputsumman är lika med 1. Lagret av outputnoder är ett ”winner take all”-nätverk, vilket innebär att varje nod summerar sin viktade input och den nod som har mest antar ett aktiveringsvärde av 1 medan alla andra antar värde 0. Inlärningsregeln involverar förändringar i viktningar enbart hos den vinnande noden. Bevis finns för att denna inlärningsprocess kommer att klassificera ett inputmönster och att varje outputnod då representerar en kategori. Denna typ av nätverk kan med andra Statistiska inlärningsmetoder 9 ord fungera som klassificerare och så kallade feature detectors. I kombination med andra typer av nätverk kan dessa klassificeringsnätverk fungera som input. 19. Inlärning och minne 19.1. Associativt minne Ett nätverk bestående av två lager noder, vars aktivitet helt enkelt är den viktade summan av dess input, kan associera mönster av aktivitet över dessa två lager. Viktning lämplig för associering av flertalet mönster kan uppstå genom repetativ applicering av Hebbian-lika inlärningsregler. Teuvo Kohonen härledde bevis att felreduceringstekniker tillämpade på linjärt associativt minne skulle leda till viktmatriser som representerar den optimala linjära associativa mappningen, dvs. en mängd vikter som minimerar output-fel för en mängd associerade inputs. Han kunde visa att för en mängd input som var linjärt oberoende, kunde tekniken resultera i felfria associationer. Vissa egenskaper hos ett sådant system illustreras av prestationen hos ett enkelt associativt nätverk som tränas att klassificera bilder av ansikten genom optimal associativ mappning. Ett nätverk hade tränats att klassificera bilder av 10 individuella ansikten genom ett träningsset av 10 individer, som var och en visades ur flera olika synvinklar. Input var vektorer vars komponenter var medelnivån på färgen hos specifika delar hos ett visst fotografi. Output var aktivitetsmönster på 10 enheter, där varje enhet stod för ett ansikte. Efter träning kunde nätverket klassificera ansiktet korrekt, även om det gavs ett ansikte ur en ny, ej tidigare påträffad, synvinkel . 19.2. Semantiskt minne och gömda variabler I ett typiskt semantiskt nätverk representerar varje nod ett objekt eller koncept, och länkarna mellan noderna representerar förhållandet mellan noderna. Sådan konnektionistisk implementation av semantiskt nätverk har föreslagits. Dock handlar ett sådant schema om lokala hellre än distribuerade representationer. Geoffrey Hinton argumenterar för ett alternativt distribuerat schema där koncept representeras av aktiveringsmönster över ett set noder. Han anser det vara en mer löftesrik modellering av hur koncept representeras i nervsystemet, och att förstå aktiveringsmönster är viktiga i förståelsen av microstrukturen hos ett specifikt koncept eftersom interaktionen som i semantiska nätverk representeras av en enda länk, egentligen genereras av miljoner simultana interaktioner på mikrostrukturnivå. Hinton skapade ett distribuerande minnessystem med siktet på att lagra familjeträdsstrukturen. Av 104 möjliga relationer (person 1 – relation – person 2) tränades nätverket på 100 av dessa. Back-propagation användes, och nätverket tränades under 1500 svep. Spontant skapande av gömda noder skedde, och dessa noder aktiveras för vissa egenskaper hos input. En nod kodade för nationalitet, en annan för generationen hos individen, på liknande sätt kodade den sjätte noden för vilken familjegren individen tillhörde. Denna implicita information var ej explicit inmatad under träningen utan extraherades av nätverket under träningen. Efter träning kördes två simuleringar och man testade nätverket på de fyra fall som det ej tränats för. Vid ena simuleringen gav nätverket helt korrekt svar för alla fyra, och vid andra simuleringen gavs tre fjärdedelar rätta svar. Denna förmåga att generalisera är väldigt viktig. Representationen av koncept genom distribuerade mönster av microfeatures är en viktig fördel gentemot lokalistiska representationer. I distribuerade mönster kommer liknande koncept ha liknande representationer. Detta är inte så hos 10 Statistiska inlärningsmetoder lokalistiska scheman där varje koncept representeras av en enskild enhet. Vad detta ger för fördel är förmågan att generalisera. David E. Rumelhart och Peter M. Todd undersökte den kunskap som infångats i ett 3lagers nätverk tränat genom back-propagation att lära sig relationer mellan inputkoncept (en sparv) och outputset av egenskaper (fjädrar och vingar). Undersökningen av de gömda noderna visade att de kom att representera konceptuella distinktioner, t.ex. en enhet kom att representera begreppet ”planta” i negativt tillstånd och begreppet ”djur” i positivt tillstånd. Modellen uppvisade även arv på så sätt att även om den enbart tränats att en sparv är en fågel, kunde den ha inferenta egenskaper som är vanliga hos andra fåglar, t.ex. kan flyga, har vingar osv. Stimuli som producerar liknande aktivering av gömda variabler grupperas inom samma gren av ett så kallat klusterträd. I en sådan analys av Todd och Rumelhart visade det sig att djur bildade en egen klustergren och plantor en annan. Nätverket har utvecklat en semantisk organisering som skiljer överordnade termer från termer av mer specifik karaktär. Kunskap och relationerna mellan kunskapsobjekt är representerat som ett mönster av kopplingar, olika vikter och aktiveringsegenskaper hos enheterna 20. Fördelar och nackdelar med distribuerade nätverk Till fördelarna med distribuerade nätverk i förhållande till lokaliserade nätverk hör att distribuerade nätverk kan lära sig nya koncept på ett sätt som inte är möjligt om koncepten vore lokalt representerade. Distribuerade nätverk försämras inte lika lätt av skador som lokala nätverk gör. Dessutom går det snabbt att ta igen den förlorade informationen vid återinlärningssvep. Effekten av nyinlärning är distribuerade nätverks stora svaghet. Senare inlärning på tidigare inlärt material kan hos distribuerade nätverk skapa så kallad katastrofal glömska. Statistiska inlärningsmetoder 11 21. Referenser Ellis, R. & Humphreys, G. (1999) Connectionist Psychology: A Text Readings. Hove: Psychology Press. Hastie, T., Tibshirani, R. & Friedman, J. (2001) The elements of Statistical Learning: Data Mining, Inference and Prediction. New York: Springer Verlag. Russell, S. & Norvig, P. (2003) Artificial Intelligence: A Modern Approach, 2 nd ed. New Jersey: Pearson Education, Inc.