Statistiska inlärningsmetoder

Umeå Universitet, Institutionen för Datavetenskap
Laboration 2 i Artificiell intelligens, 5p
Hanledare: Therese Edvall och Daniel Ölvebrink
Statistiska inlärningsmetoder
Karin Landén och Andreas Marklund
[email protected], [email protected]
Statistiska inlärningsmetoder spelar en viktig roll inom många
vetenskapliga, finansiella och industriella områden. Användningen av
statistiska inlärningsmetoder sträcker sig från enkla beräkningar av
medelvärden till konstruktion av komplexa strukturer som Bayesiska nätverk
och neurala nätverk. Denna rapport behandlar olika former av statistiska
inlärningsmetoder, från enklare nätverk till mer komplicerade neurala
nätverk. Skillnader mellan lokaliserade och distribuerade nätverk tas också
upp.
2
Statistiska inlärningsmetoder
Innehållsförteckning
1. INTRODUKTION.................................................................................................................. 3
2. SYFTE OCH METOD ............................................................................................................ 3
3. OLIKA TYPER AV STATISTISKA INLÄRNINGSMETODER ....................................................... 3
4. INLÄRNING MED GÖMDA VARIABLER ................................................................................ 4
5. VAD ÄR ETT NEURALT NÄT? .............................................................................................. 4
6. DEN MÄNSKLIGA HJÄRNAN ............................................................................................... 4
7. NEURON ............................................................................................................................ 5
8. KOMPONENTER I ETT NEURALT NÄT .................................................................................. 5
9. VAD ÄR BRISTERNA? ......................................................................................................... 5
10. KONNEKTIONISM ............................................................................................................. 6
11. VON NEUMANN-ARKITEKTUR .......................................................................................... 6
12. GENERELL BESKRIVNING AV DEN FYSISKA STRUKTUREN HOS EN KONNEKTIONISTISK
DATOR ................................................................................................................................... 6
13. SPELAR SKILLNADER I STRUKTUR ROLL I SYFTE ATT FÖRSTÅ ELLER FÖRKLARA
INTELLIGENT BETEENDE? ...................................................................................................... 7
14. INLÄRNINGSMEKANISMER ............................................................................................... 7
15. VAD ÄR KONNEKTIONISM? .............................................................................................. 7
16. BACK-PROPAGATION I NÄTVERK SOM BESTÅR AV FLERA LAGER ..................................... 8
17. RECURRENT NETWORKS .................................................................................................. 8
18. LEARNING BY COMPETITION ............................................................................................ 8
19. INLÄRNING OCH MINNE ................................................................................................... 9
19.1. Associativt minne ..................................................................................................... 9
19.2. Semantiskt minne och gömda variabler ................................................................... 9
20. FÖRDELAR OCH NACKDELAR MED DISTRIBUERADE NÄTVERK ....................................... 10
21. REFERENSER ................................................................................................................. 11
Statistiska inlärningsmetoder
3
1. Introduktion
Statistiska inlärningsmetoder spelar en viktig roll inom många vetenskapliga, finansiella och
industriella områden. Användningen av statistiska inlärningsmetoder sträcker sig från enkla
beräkningar av medelvärden till konstruktion av komplexa strukturer som Bayesiska nätverk
och neurala nätverk (Russell & Norvig, 2003).
Exempel på problem på vilka statistiska inlärningsmetoder kan tillämpas är att identifiera
siffror i ett handskrivet postnummer utifrån en digitaliserad bild, att uppskatta mängden
glukos en diabetikerpatient har i blodet utifrån ett infrarött absorptionsspektrum för
prostatacancer baserat på kliniska och demografiska variabler (Hastie, Tibshirami &
Friedman, 2001).
2. Syfte och metod
Syftet med arbetet är att på ett pedagogiskt sätt förmedla den information som återfinns i
kapitel 20 i Stuart Russells och Peter Norvigs bok ”Artificial Intelligence: A Modern
Approach” samt ytterligare infomation inom ämnesområdet. Metoden vi använt oss av är en
litteraturstudie av böcker som behandlar ämnet.
3. Olika typer av statistiska inlärningsmetoder
Tillämpningen av statistiska inlärningsmetoder var till en början ett aktivt forskningsområde
inom AI, men utvecklades efterhand till ett separat ämnesområde då den största delen av
forskningen inom AI koncentrerades på symboliska metoder. Statistisk inlärning fortsatte
emellertid att utvecklas inom områden som mönsterigenkänning (Russell & Norvig, 2003).
Under senare delen av 1980-talet fick statistiska inlärningsmetoder ett uppsving i och med
att Bayesiska nätverksmodeller introducerades. Bayesiska metoder reducerar inlärning till en
form av Probabilistisk inferens. Observationer används för att uppdatera tidigare fördelningar
av hypoteser. Bayesisk inlärning beräknar helt enkelt sannolikheten för varje hypotes, givet
data från observationerna, och gör sedan förutsägelser utifrån detta. Skillnaden mot tidigare
probabilistiska metoder är att förutsägelserna görs genom att använda alla hypoteser, viktade
med deras sannolikheter, snarare än bara den hypotes som verkar bäst (Russell & Norvig,
2003).
Bayesisk inlärning fungerar som en bra metod att implementera Ockhams Rakkniv men
lyckas sämre med problem som har stora och komplexa hypotesrymder. I de flesta sådana
fall måste approximationer eller förenklade metoder tillgripas. En vanlig approximation är att
göra förutsägelser baserade på en enda hypotes, den mest sannolika. Maximum a posteriori
(MAP) inlärning är ofta ett enklare sätt att angripa ett problem än Bayesisk inlärning.
En ytterligare förenkling av statistisk inlärning är maximum likelihoodmetoden.
Maximum likelihood-inlärning går ut på att välja den hypotes som maximerar sannolikheten
av observerat data. I enkla fall, såsom linjär regression och helt observerbara Bayesiska
nätverk, kan bra maximum likelyhoodlösningar lätt hittas. Naive Bayes-inlärning är en
mycket effektiv teknik baserad på maximum likelihood.
4
Statistiska inlärningsmetoder
4. Inlärning med gömda variabler
De inlärningsmetoder som diskuterats hittills har alla behandlat inlärning i helt observerbara
fall. Många av de problem som uppstår i den verkliga världen har dock gömda variabler, dvs.
variabler som inte är observerbara i den data som finns tillgänglig i inlärningsprocessen.
Fig 1. Ett nätverk med gömda variabler (a) och utan (b).
Exempel där gömda variabler finns representerade är i medicinska problem. Medicinska
register innehåller ofta observerade symptom. Vilken behandling som använts och kanske
resultatet av behandlingen, men de innehåller sällan någon direkt observation av sjukdomen
själv. En tanke som kan tyckas rationell är ”om man inte har någon observation av
sjukdomen, varför inte konstruera en modell som inte tar hänsyn till den?” svaret på denna
fråga, vilket åskådliggörs i fig1., är att gömda variabler kraftigt kan reducera antalet
parametrar som behövs för att beskriva ett Bayesiskt nätverk.
Gömda variabler är viktiga men de gör också att inlärningsproblem blir mer
komplicerade. Med hjälp av en algoritm kallad expectation-maximization (EM) kan dock
maximum likelihood-lösningar hittas även om några variabler är gömda. Exempel på
tillämpningar där EM-algoritmer kan användas är inlärning för Bayesiska nätverk med
gömda variabler (Russell & Norvig, 2003).
5. Vad är ett neuralt nät?
Ett neuralt nät, även kallat konnektionistiskt nät, är en artificiell representation av den
mänskliga hjärnan som försöker simulera dess inlärningsprocess. Med termen artificiell
menas att neurala nät är implementerade i datorprogram som kan hantera stora mängder av
nödvändiga beräkningar under inlärningsprocessen.
6. Den mänskliga hjärnan
Den mänskliga hjärnan består av ett stort antal neuron som behandlar information. Varje cell
fungerar som en enkel processor och endast massiv interaktion mellan alla celler och deras
parallella bearbetning gör hjärnans egenskaper möjliga.
Statistiska inlärningsmetoder
5
7. Neuron
Ett neuron består av en cellkärna och dendriter för inkommande information. Axon med
dendriter för utgående information som skickas vidare till ihopkopplade neuron.
Informationen transporteras mellan neuron genom elektrisk stimulans längs dendriterna.
Inkommande information som kommer till neurons dendriter summeras ihop och sen
levereras den längs neuronens axon till dendriterna i slutet. Där blir informationen överförd
till andra neuron endast ifall stimuleringen har nått ett särskilt tröskelvärde. Om tröskel nås
så blir neuronet tillsagt att aktiveras. Om stimuleringen är för svag avstannar transporten. I
det senare fallet blir neuronet åtsagt att vara inhiberat.
Kopplingarna mellan neuron är adaptiva, med det menas att kopplingarnas struktur ändras
dynamiskt. Det är känt att hjärnans inlärningsförmåga baseras på denna adaption.
8. Komponenter i ett neuralt nät
Det finns många typer av neurala nät, alla har i stort sett samma komponenter. Om någon
försöker simulera den mänskliga hjärnan genom att använda ett neuralt nät, är det ganska
uppenbart att stora förenklingar måste göras. Först och främst är det omöjligt att kopiera de
parallella kopplingarna mellan alla neuron. Det finns emellertid datorer som har möjligheten
att parallellprocessa. En annan förenkling är att datorers interna struktur inte kan förändras
samtidigt som något utförs, och hur implementerar man ett elektriskt stimuli i ett
datorprogram?
Precis som den mänskliga hjärnan består neurala nät av neuron och kopplingar mellan
dem. Neuronen transporterar inkommande information på deras utgående kopplingar till
andra neuron. I neurala nät-termer är dessa kopplingar kallade vikter. Den elektriska
informationen simuleras med särskilda värden som är lagrade i dessa vikter. Ett artificiellt
neuron är väldigt likt ett biologiskt neuron i en cell och den fungerar på ett liknande sätt.
Informationen sänds till neuronet på dess inkommande vikter. Detta input kommer av en
propageringsfunktion som summerar värdet på alla inkommande vikter. Resultatvärdet
jämförs med ett tröskelvärde från neuronets aktiveringsfunktion. Om input överskrider
tröskelvärdet så blir neuronet aktiverat, om inte så blir det inhiberat. Om det aktiveras så
sänder neuronet en output på sina utgående vikter till alla sammankopplade neuron.
I ett neuralt nät är neuronerna grupperade i lager, så kallade neuronlager. Vanligtvis så är
varje neuron på ett lager sammankopplat med alla neuron på nästföljande lager.
Informationen i ett neuralt nät sprids från lager till lager, från input till output. Beroende på
inlärningsalgoritmen så är det också möjligt att informationen propageras bakåt genom nätet.
9. Vad är bristerna?
Neurala nät är konstruerade för att lösa problem som inte kan lösas genom konventionella
algoritmer. Sådana problem är vanligtvis optimerings- eller klassificeringsproblem. Olika
problemdomäner där neurala nät kan användas är bland annat mönsterigenkänning,
bildprocessande, analys av tal, optimering, styrande av robotar och börsförutsägelser.
Det finns många olika sorters neurala nät där var och ett av dem har olika alternativ, varje
problemdomän har sin egen nättyp. Över lag kan man säga att neurala nät är väldigt flexibla
system för problemlösning. En förmåga som borde nämnas speciellt är feltoleransen hos
neurala nätverk. Detta betyder att om ett neuralt nät har blivit lärt inom ett specifikt problem
som kommer det att kunna ge korrekta resultat, även fast problemet som ska lösas inte är
exakt samma som den redan inlärda. Tänk dig exempelvis att ett neuralt nät lär sig att känna
6
Statistiska inlärningsmetoder
igen mänskligt tal. Under inlärningsprocessen får en specifik person uttala vissa ord, dessa
ord får sedan nätet lära sig. Om det lärt sig korrekt kommer det neurala nätet att kunna känna
igen dessa ord även fast de är uttalade av en annan person.
Men allt är inte guld som glimmar. Trots att neurala nät kan hitta lösningar till de svåra
problem som är listade ovan, kan resultaten inte garanteras att bli perfekta eller korrekta. Det
är bara approximationer till en önskad lösning och en speciellt fel blir alltid presenterat.
Sammanfattningsvis så finns det problem som inte kan lösas korrekt av neurala nät. Ett
exempel inom mönsterigenkänning kan vara en hjälp på vägen. Om du träffar en person som
du tidigare sett, då brukar du vanligtvis känna igen henne/honom den andra gången, även fast
hon/han inte ser ut på samma sätt som vid er första träff. Tänk er nu att ni tränar upp ett
neuralt nät med ett foto av en person, detta foto kommer sannorlikt bli igenkänt av nätet. Om
du lägger till mycket störningsmoment på bilden eller roterar några grader kommer
igenkänningen förmodligen att misslyckas.
Säkerligen så kommer inte någon någonsin utnyttja ett neuralt nätverk till att lösa en
algoritm, av den enkla anledningen att det finns mycket bättre och snabbare algoritmer, men
inom problemdomäner, som de tidigare nämnda, så är neurala nät alltid ett bra alternativ till
existerande algoritmer och det är verkligen värt ett försök.
10. Konnektionism
Vår beskrivning av den fysiska strukturen hos den konnektionistiska hjärnan är att den består
av många funktionellt enkla men rikt kopplade celler. Varje cell tar emot många input, vissa
excitatoriska, andra inhibitoriska. Dessa input summeras och ifall tröskelvärdet för excitation
överskrids sprider sig aktiveringen till många andra celler.
Denna förenklade beskrivning använder vi som arbetshypotes för lämplig nivå i syfte att
förstå hjärnan som informationsprocessor. Motsvarande beskrivning av den fysiska
strukturen hos en dator beskrivs vanligtvis med von Neumanns beskrivning.
11. von Neumann-arkitektur
Två komponenter är essentiella, en CPU som är en mekanism som kan utföra aritmetiska
eller logiska operationer seriellt. Alltså är en Von Neumann-dator en sekventiell maskin.
Operationerna som utförs sparas i den andra komponenten, vilken är minnet. Naturen och
sekvensen hos operationerna bestäms av program som också lagras i minnet.
12. Generell beskrivning av den fysiska strukturen hos en konnektionistisk dator
En konnektionistisk dator består av ett set enkla men rikt kopplade processenheter. Varje
enhet mottar input som summeras. Ett enskilt output härleds från den föregående
summeringen och sprids till andra enheter.
Största skillnaden mellan von Neumandatorn och den konnektionistiska datorn är att den
senare opererar parallellt. För det andra är att minnet hos den konnektionistiska datorn inte
består av ett register av platser som den gör i von Neumandatorn. För det tredje finns det
inga övergripande kontrollerande program i den konnektionistiska datorn.
Statistiska inlärningsmetoder
Metafor
Representation
Process
Kontroll
Strategi
Dator (von Neumann)
Lokaliserad
Seriell
CPU
Sekventiella operationer på symboler
7
Nervsystemet (Neurala nät)
Distribuerad/lokaliserad
Parallell
Lokala begränsningar
Likhetsbaserad
Fig 2. Sekventiell arkitektur vs konnektionistisk arkitektur
13. Spelar skillnader i struktur roll i syfte att förstå eller förklara intelligent beteende?
Är hjärnans fysiska struktur ett måste för existensen av kognitiva processer? I syfte att förstå
kognition argumenterar många att skillnaden i struktur mellan hjärnan och datorer vi
försöker modellera aspekter av kognition på, inte spelar någon roll.
Enligt Church-Turings tes kan alla deterministiska formella system realiseras av en
turingmaskin, och med det följer att varje konnektionistisk dator kan realiseras av en
turingmaskin. I sådana fall borde inte struktur spela någon roll, i alla fall om man betraktar
kognition som enbart en form av beräkning. Enligt physical symbol system (PSS) hypotesen
å andra sidan är den essentiella egenskapen hos intelligens just symbolmanipulation.
14. Inlärningsmekanismer
Den grundläggande beräkningsprocessen i en von Neumansdator, verklig eller virtuell, är en
sekvens logiska operationer på symboler hämtade från minnet, vars resultat består i nya
symboler som läggs in i minnet. Men hur karaktäriseras de grundläggande
beräkningsprocesserna i en konnektionistisk maskin?
Konnektionistiska datorer kan ej programmeras på konventionella sätt. Istället måste man
manipulera sättet enheterna är kopplade och viktningarna mellan enheterna. I de nätverk där
viktningarna är variabla finns möjligheten att ”lära” nätverket. Nätverket lär sig genom
erfarenheter.
15. Vad är konnektionism?
Konnektionism är ett försök att utforska beräkningsegenskaperna hos hjärnliknande
mekanismer. Vissa som arbetar med detta anser sig modellera riktiga nätverk av riktiga
neuron. Andra ser sina undersökningar som riktade mot att förstå beräkningsstrukturer direkt.
Dessa har gemensamt att de anser att den fysiska strukturen är viktig när det gäller hjärnans
beräknings- och psykologiska funktioner.
Konnektionistiska scheman är välanpassade för problem som kräver multiple
simultaneous constraint satisfaction. Multiple simultaneous constraint satisfaction är
”tydligt” en egenskap hos kognition.
Konnektionism kan förklara inlärning, eller åtminstone beskriva enkla mekanismer som
tycks förklara hur omfattande kunskap eller kontrollstrukturer kan uppkomma av att utsättas
för omgivningen.
8
Statistiska inlärningsmetoder
Ett minne är ett specifikt mönster av aktivering som kan initieras genom någon ledtråd.
Minnet kan således ej sägas ha spatial lokalisering och en enhet i ett minne kan vara delaktig
i många andra minnen.
Enheter i konnektionistiska nätverk kan representera saker i världen. Representationen
kan vara lokal eller distribuerad. Representationen för ett specifikt minne kan vara
distribuerad över flera enheter, vilka för sig står för olika delar. Varje sådan enhet sägs vara
lokal. Men det kan tänkas att dessa också är distribuerade över flertalet andra enheter också.
Regelföljande beteende kan uppstå i nätverket utan att dessa regler uttrycks explicit.
Nätverket kan även sägas ha en graceful degradation, vilket betyder att det vid skador inte
slutar att fungera utan gradvis försämras. Nätverket fungerar således inte genom på eller av
principen.
16. Back-propagation i nätverk som består av flera lager
Back-propagation är en inlärningsteknik för flerlagersnätverk med perceptronliknande
enheter. Nätet består av inputnoder som är kopplade till ett eller flera lager av gömda noder,
vilka i sin tur är kopplade till outputnoder. Aktiveringen sprider sig enbart i en riktning, från
input mot output. Därför är detta ett feed-forward nätverk. Enheterna är deterministiska
snarare än stokastiska eftersom deras aktiveringsvärde inte varierar mellan olika tillfällen.
Inputmönster appliceras och propageras (sprids) framåt i nätverket fram till outputnoderna.
Fel beräknas baserat på skillnaden mellan aktuellt och önskat aktiveringstillstånd hos
outputnoden. Därefter justeras viktningarna hos de enheter som är kopplade till
outputenheten. Detta propageras rekursivt bakåt genom hela nätverket.
17. Recurrent networks
Recurrent networks är flerlagersnätverk som tränas via back-propagation. Denna typ av
nätverk har främst använts för modellering av olika aspekter hos språk. I dessa nätverk sprids
aktiveringen inte bara framåt under en epok (ett svep) utan de vänds även tillbaka så att delar
av nätverkets respons till givet stimulus på epok N blir del av epok N+1. Vid epok N
aktiveras gömda noder, och aktiveringen passerar till output-noderna. Aktiveringen i epok N
återanvänds till att bli del av epok N+1, vilket uppnås genom att ha oförändrad viktning av 1
på kopplingarna från de gömda noderna till speciella input-noder så kallade kontextnoder. På
så sätt kan ett nätverk bli känsligt för temporal ordning i vilken input ges, eftersom varje
svep delvis bestäms av responsen vid föregående svep.
18. Learning by competition
Back-propagation är en form av övervakad, så kallad supervised, learning, vilket innebär att
inlärningen kräver någon slags jämförning med ett lärar-input. Learning by competition är en
oövervakad form av inlärning.
Varje inputnod är kopplad till varje outputnod. Outputnoderna är även kopplade till
varandra. Input är normaliserat så att den totala inputsumman är lika med 1. Lagret av
outputnoder är ett ”winner take all”-nätverk, vilket innebär att varje nod summerar sin
viktade input och den nod som har mest antar ett aktiveringsvärde av 1 medan alla andra
antar värde 0. Inlärningsregeln involverar förändringar i viktningar enbart hos den vinnande
noden. Bevis finns för att denna inlärningsprocess kommer att klassificera ett inputmönster
och att varje outputnod då representerar en kategori. Denna typ av nätverk kan med andra
Statistiska inlärningsmetoder
9
ord fungera som klassificerare och så kallade feature detectors. I kombination med andra
typer av nätverk kan dessa klassificeringsnätverk fungera som input.
19. Inlärning och minne
19.1. Associativt minne
Ett nätverk bestående av två lager noder, vars aktivitet helt enkelt är den viktade summan av
dess input, kan associera mönster av aktivitet över dessa två lager. Viktning lämplig för
associering av flertalet mönster kan uppstå genom repetativ applicering av Hebbian-lika
inlärningsregler.
Teuvo Kohonen härledde bevis att felreduceringstekniker tillämpade på linjärt associativt
minne skulle leda till viktmatriser som representerar den optimala linjära associativa
mappningen, dvs. en mängd vikter som minimerar output-fel för en mängd associerade
inputs. Han kunde visa att för en mängd input som var linjärt oberoende, kunde tekniken
resultera i felfria associationer. Vissa egenskaper hos ett sådant system illustreras av
prestationen hos ett enkelt associativt nätverk som tränas att klassificera bilder av ansikten
genom optimal associativ mappning. Ett nätverk hade tränats att klassificera bilder av 10
individuella ansikten genom ett träningsset av 10 individer, som var och en visades ur flera
olika synvinklar. Input var vektorer vars komponenter var medelnivån på färgen hos
specifika delar hos ett visst fotografi. Output var aktivitetsmönster på 10 enheter, där varje
enhet stod för ett ansikte. Efter träning kunde nätverket klassificera ansiktet korrekt, även om
det gavs ett ansikte ur en ny, ej tidigare påträffad, synvinkel .
19.2. Semantiskt minne och gömda variabler
I ett typiskt semantiskt nätverk representerar varje nod ett objekt eller koncept, och länkarna
mellan noderna representerar förhållandet mellan noderna. Sådan konnektionistisk
implementation av semantiskt nätverk har föreslagits. Dock handlar ett sådant schema om
lokala hellre än distribuerade representationer. Geoffrey Hinton argumenterar för ett
alternativt distribuerat schema där koncept representeras av aktiveringsmönster över ett set
noder. Han anser det vara en mer löftesrik modellering av hur koncept representeras i
nervsystemet, och att förstå aktiveringsmönster är viktiga i förståelsen av microstrukturen
hos ett specifikt koncept eftersom interaktionen som i semantiska nätverk representeras av en
enda länk, egentligen genereras av miljoner simultana interaktioner på mikrostrukturnivå.
Hinton skapade ett distribuerande minnessystem med siktet på att lagra
familjeträdsstrukturen. Av 104 möjliga relationer (person 1 – relation – person 2) tränades
nätverket på 100 av dessa. Back-propagation användes, och nätverket tränades under 1500
svep. Spontant skapande av gömda noder skedde, och dessa noder aktiveras för vissa
egenskaper hos input. En nod kodade för nationalitet, en annan för generationen hos
individen, på liknande sätt kodade den sjätte noden för vilken familjegren individen tillhörde.
Denna implicita information var ej explicit inmatad under träningen utan extraherades av
nätverket under träningen. Efter träning kördes två simuleringar och man testade nätverket på
de fyra fall som det ej tränats för. Vid ena simuleringen gav nätverket helt korrekt svar för
alla fyra, och vid andra simuleringen gavs tre fjärdedelar rätta svar. Denna förmåga att
generalisera är väldigt viktig. Representationen av koncept genom distribuerade mönster av
microfeatures är en viktig fördel gentemot lokalistiska representationer. I distribuerade
mönster kommer liknande koncept ha liknande representationer. Detta är inte så hos
10
Statistiska inlärningsmetoder
lokalistiska scheman där varje koncept representeras av en enskild enhet. Vad detta ger för
fördel är förmågan att generalisera.
David E. Rumelhart och Peter M. Todd undersökte den kunskap som infångats i ett 3lagers nätverk tränat genom back-propagation att lära sig relationer mellan inputkoncept (en
sparv) och outputset av egenskaper (fjädrar och vingar). Undersökningen av de gömda
noderna visade att de kom att representera konceptuella distinktioner, t.ex. en enhet kom att
representera begreppet ”planta” i negativt tillstånd och begreppet ”djur” i positivt tillstånd.
Modellen uppvisade även arv på så sätt att även om den enbart tränats att en sparv är en
fågel, kunde den ha inferenta egenskaper som är vanliga hos andra fåglar, t.ex. kan flyga, har
vingar osv.
Stimuli som producerar liknande aktivering av gömda variabler grupperas inom samma
gren av ett så kallat klusterträd. I en sådan analys av Todd och Rumelhart visade det sig att
djur bildade en egen klustergren och plantor en annan. Nätverket har utvecklat en semantisk
organisering som skiljer överordnade termer från termer av mer specifik karaktär. Kunskap
och relationerna mellan kunskapsobjekt är representerat som ett mönster av kopplingar, olika
vikter och aktiveringsegenskaper hos enheterna
20. Fördelar och nackdelar med distribuerade nätverk
Till fördelarna med distribuerade nätverk i förhållande till lokaliserade nätverk hör att
distribuerade nätverk kan lära sig nya koncept på ett sätt som inte är möjligt om koncepten
vore lokalt representerade. Distribuerade nätverk försämras inte lika lätt av skador som
lokala nätverk gör. Dessutom går det snabbt att ta igen den förlorade informationen vid
återinlärningssvep. Effekten av nyinlärning är distribuerade nätverks stora svaghet. Senare
inlärning på tidigare inlärt material kan hos distribuerade nätverk skapa så kallad katastrofal
glömska.
Statistiska inlärningsmetoder
11
21. Referenser
Ellis, R. & Humphreys, G. (1999) Connectionist Psychology: A Text Readings. Hove:
Psychology Press.
Hastie, T., Tibshirani, R. & Friedman, J. (2001) The elements of Statistical Learning: Data
Mining, Inference and Prediction. New York: Springer Verlag.
Russell, S. & Norvig, P. (2003) Artificial Intelligence: A Modern Approach, 2 nd ed. New
Jersey: Pearson Education, Inc.