I see what you mean –
Assessing readability for specific target groups
Avhandling vid Språkbanken,
Institutionen för svenska språket, Göteborgs
universitet
Temadag DART
Katarina Mühlenbock, datalingvist
[email protected]
[email protected]
www.gu.s
e
Disposition av presentationen
 Syftet med avhandlingen
 Enkel svensk text
 Målgruppen
 Textförenkling
 Läsbarhet
 Hur kan språkteknologiska metoder användas för att
mäta läsbarhet?
 Vilka egenskaper hos texten har jag studerat?
 Resultat
www.gu.s
e
Avhandlingsämnet
Syftet med avhandlingen
• Granska vetenskaplig litteratur och hitta belägg för att vissa egenskaper
hos en text påverkar komplexitet och läsbarhet (= evidensbaserat)
• Egenskaperna ska vara belagda genom läsförståelsetest,
ögonrörelsemätning eller hjärnavbildningsteknik
• Statistiskt jämföra egenskaperna hos texter som tillhör samma genre
(skönlitteratur, nyhetstext eller information), men av olika komplexitet
• Skapa en språkmodell att använda i en automatisk textklassificerare
www.gu.s
e
Enkel svensk text
”Enkel svensk text”
• Centrum för lättläst
– ”Lättläst” (25% av Sveriges befolkning…)
• Regeringskansliet (Språkrådet)
– ”Klarspråk” (arbetar för att skapa ett förenklat
kanslispråk)
• Radions P4
– ”Klartext” (nyheter på lätt svenska)
• Olika specialförlag
www.gu.s
e
Enkel svensk text
Lättläst
Viktigt: Tillgänglighetsfråga, väldigt lite gjort för svenska.
Samhällets krav på medborgarnas förmåga att ta till sig text ökar.
Svårt: Det finns ingen enighet i forskning eller praktik om:
• vad som är lättläst
• hur mottagaranpassning ska se ut och praktiskt genomföras
Aktuellt: Tillgänglighetsåret 2010 har passerat, omdebatterat just nu
Bland annat i relation till Språklagen. Språkteknologin ger nya möjligheter.
www.gu.s
e
Enkel svensk text
”Lättläst text” enligt CfL – för vem?
”Cirka 25% av Sveriges vuxna befolkning behöver lättläst information”.
www.lattlast.se
Heterogen grupp vuxna personer med olika behov:
• Dyslektiker
• Afatiker
• Personer med lindrig intellektuell utvecklingsstörning
• Andraspråksinlärare
IALS-projektet (International Adult Literacy Survey), OECD 1994.
”En av fyra dagstidningsläsare har svårigheter att tillgodogöra sig vanliga
nyhetsartiklar där de inte är välbekanta med innehållet. Lågfrekventa ord bör
undvikas, liksom abstrakta begrepp som kräver flera tolkningssteg för att förstå
vad som åsyftas. Konkreta rubriker, bilder och bildtexter, samt omsorgsfull
redigering gör det möjligt att förstå även ganska komplicerad texter.” (Mats
Myrberg, Lärarhögskolan i Stockholm)
www.gu.s
e
Målgrupp
Målgruppen personer med intellektuell utvecklingsstörning
• Mellan 0,4 och 0,5 % av befolkningen enligt administrativa uppgifter
(insatser enligt LSS eller särskolebehov)
• Mellan 2 och 3 % av befolkningen enligt psykologiska definitioner
(< 70 IQ)
• indelning i 4 grupper har gjorts av WHO, i praktiken bara 3
– Lätt eller lindrig utvecklingsstörning (24%)
– Måttlig (34%)
– Svår (41%)
Antalet personer i målgruppen 50 000 – 60 000 i Sverige
Läsbegränsningar: Arbetsminne och diskursrepresentationer
www.gu.s
e
Textförenkling
Exempel
Originalversion
Lättläst version
På våra sidor hittar du information om all
utbildningsverksamhet i Linköping för
barn, ungdomar och vuxna. Här finns
också information om vad vi erbjuder för
verksamhet under lov och fritid, vilket stöd
vi kan erbjuda för olika behov samt hur
vi arbetar med att utveckla
verksamheten. Vill du veta hur vi är
organiserade eller vem som jobbar med
vad i vår organisation tryck på länken
"Utbildningsförvaltningen" till höger.
Här hittar du information om all utbildning i
Linköping.
Du får också veta vad man kan göra på
lov och fritid.
Vi berättar om vilket stöd vi kan ge, ifall du
behöver det.
Du kan också läsa om vad vi gör för att bli
bättre.
Klicka på länken
"Utbildningsförvaltningen" till höger, ifall du
vill veta mer.
Där kan du också kontakta oss.
3 meningar om i medeltal 22 ord
Långa ord (21 % > 6 bokst)
Diffusa begrepp
6 meningar om i medeltal 10 ord
Färre långa ord (11 % > 6 bokst)
Diffusa begrepp förenklade
www.gu.s
e
Läsbarhet
Hur undersöker man läsbarhet?
1. Litar på sin språkliga intuition
2. Granskar olika läsbarhetsfaktorer i en given text
3. Samlar in en korpus med enkel text för att dra slutsatser om
materialet
4. Granskar parallella texter för att undersöka om det finns statistiska
mönster som kan ge användbar information
5. Intervjuar/filmar testpersoner under läsning
6. Observerar testpersoners ögonrörelser under läsning
7. Observerar testpersoner med hjärnavbildningsteknik under läsning
Kombination av 3 och 4 = statistisk språkmodellering
www.gu.s
e
Läsbarhet
Läsbarhet
• Relation mellan läsaren och texten
• Påverkas av individens kognitiva förutsättningar (perception, minne,
intelligens, språk)
• Påverkas av individens emotionella förutsättningar (motivation)
• Evidensbaserade svenska undersökníngar av om en text har hög/låg
läsbarhet:
Textundersökning
– Björnsson, 1968
Individundersökning
- Ögonrörelsestudier
- Läsförståelsetester
- Hjärnavbildningsmetoder (fMRI o ERP) ?
www.gu.s
e
Läsbarhet
Läsbarhetsfaktorer
• Läsbarhetsfaktorer: ordens längd, procenttalet flerstaviga ord, textens
abstraktionsgrad, bisatstäthet m.m.
• Läsbarhetsforskning har främst bedrivits i USA, start runt 1920-30talet (Lively & Pressey, Vogel & Washburne, Lewerentz, Dale & Tyler,
Gray & Leary, Morris & Holversen)
• Förfinade statistiska beräkningar 1940-50-talet (Flesch, Dale & Chall,
Gunning)
• 1968 kom LIX (Läsbarhetsindex) för svenska (Björnsson)
www.gu.s
e
Läsbarhet
Läsbarhetsfaktorer i amerikanska studier 1920-30talet
(enl Chall, J.S. 1958, Klare, G.R. 1963)
Lively &
Pressey
Vogel &
Washburne
Lewerentz
Dale &
Tyler
Thorndike
Gray &
Leary
Morris &
Holversen
Ordlängd i stavelser
I Thorndikes ordlista
Svåra ord
Förnimmelseord
Pers pronomen
Prepositioner
Olika tekniska ord
Ordvariation
Prepositionsfraser
Meningslängd
Enkla meningar
(empiriskt urval)
Kontext
”Begrepp”
www.gu.s
e
Läsbarhet
Björnssons undersökning av läsbarhetsfaktorer för
svenska
www.gu.s
e
Läsbarhet
Läsbarhetsindex = numerisk skala där olika läsbarhetsnivåer kan
jämföras
Läsbarhetsformel = en uppsättning läsbarhetsvariabler (symboler)
• Framför allt amerikanska studier av engelska språket, räknas oftast i
meningslängd och genomsnittligt antal stavelser i texten
• Är avsett att indela text i olika nivåer beroende på svårighetsgrad
• Kopplat till nivåerna i det amerikanska skolsystemet
(ex. 6.8 på skalan för Flesch-Kincaid index = 6e klass)
• Svenska läsbarhetsformeln LIX baserad på procentandel ord > 6
bokstäver och genomsnittlig meningslängd:
www.gu.s
e
Läsbarhet
Jämförelse LIX / Amerikanska läsbarhetsindex
www.gu.s
e
Läsbarhet
Chall (1958):
”Only four types of elements are significantly related to the criteria so far used:
vocabulary load,sentence structure, idea density, human interest”
Chall, J. (1958): Readabilty. An appraisal of research and applications.
1.
2.
3.
4.
Vokabulärtyngd
Meningsstruktur
Idétäthet
Mänskligt intresse
www.gu.s
e
Språkteknologi
Hur kan språkteknologiska metoder användas för att
mäta läsbarhet?
Samlar in en korpus med enkel text från olika genrer för att sedan
statistiskt jämföra med motsvarande ordinära texter
Materialet måste förberedas genom att tillföra information om:
- ordklass (POS-taggning)
- meningsstruktur (parsning)
- betydelsedjup (associationslexikon)
- ordens frekvens/spridning (SweVoc)
www.gu.s
e
Språkteknologi
Korpusen LäSBarT
•
•
•
•
Korpusen SUC 2.0
•
•
•
•
Lättläst Svenska och BarnboksText
Texter från 2000 ->
1,4 miljoner ord
Innehåller material från fyra olika
genrer och av två texttyper
Genre
Lättläst
Stockholm-Umeå corpus
Texter från 1990-talet
1 miljon ord
Innehåller material från olika
genrer och olika stilnivåer
Ordinär
Barnbokstext
122 000
421 000
Skönlitteratur för
vuxna
116 000
164 000
Nyhetstext
391 000
88 000
20 000
140 000
649 000
813 000
Informationstext
www.gu.s
e
Språkteknologi
Vilka språkliga särdrag kan indikera
komplexitetsgrad?
Resultat från parvisa jämförelser lättläst/ordinär
text
Nivå
Särdrag
Ytstruktur
Ordlängd i antal bokstäver
X
Ordlängd i antal stavelser
X
Meningslängd i antal ord
X
”Långa ord” > 6 bokstäver
X
Antal unika ord (för/subst, för/verb, för/konj)
X
Antal unika lemman (för, fört, förde, fördes/verb)
X
Type/token ratio
X
Ordvariationsindex
X
Lemmavariationsindex
X
SweVoc (svensk basvokabulär)
X
Vokabulärtyngd
Signifikans
www.gu.s
e
Språkteknologi
Forts. Vilka språkliga särdrag kan indikera
komplexitetsgrad?
Nivå
Särdrag
Meningsstruktur
Dependensavstånd
X
Antal underordnade satser
X
Prenominala modifierare
X
Postnominala modifierare
X
Parsträdets djup
X
Propositionstäthet
X
Idétäthet
Intressegrad
Signifikans
Relationen subst/pronomen
(X)
Nominalkvot
(X)
Semantiskt djup
(X)
Andelen personnamn
X
Resultat = språkmodellen SVIT (sentence structure, vocabulary load,
idea density and human interest)
www.gu.s
e
Resultat
Kan de föreslagna särdragen avslöja texttyp?
Resultat av automatisk textklassificering med LIX och
SVIT
Testset
Lättläst barnbokstext
Ordinar barnbokstext
Lättläst skönlitteratur för vuxna
Ordinär skönlitteratur för vuxna
Lättläst nyhetstext
Ordinär nyhetstext
Lättläst informationstext
Ordinär informationstext
Modell
F-score
LIX
66,8
SVIT
68,4
LIX
34,6
SVIT
61,9
LIX
28,6
SVIT
68,1
LIX
28,1
SVIT
83,9
LIX
48,2
SVIT
89,2
LIX
24,6
SVIT
85,1
LIX
12,7
SVIT
87,0
LIX
58,8
SVIT
84,9
www.gu.s
e
Exempel på verb i lättläst text som saknas i SUC
Genre
Barnlitteratur
Totalt
antal
61
Domänspec
Andel
17
28%
Domäntyp/
Ordtyp/
exempel
Språkl variant/
exempel
Hästsport: tränsa
Generell: hånskratta
Neologism: messa
Sport: glidtackla
Jargong: paja
exempel
Hobby: meka
Vuxenlitteratur
22
Generell: storgråta
0
Jargong: flabba,
jävlas, tjacka
Nyhetstext
35
6
17%
Sport: spurta, väggpassa
Generell: festa
Neologism: fildela
Generell: ösregna
Neologism: e-posta
Medborgare: dataspionera,
hungerstrejka, könsstympa
Samhällstext
46
32
70%
Medborgare: poströsta,
slutförvara, migrera
Konsument: kallröka,
småäta, genmodifiera
Sport: bowla
Barnlitt+nyhet
5
0
Generell: plåstra_om
Jargong: deppa
Barnlitt+samh
1
0
Generell: rasta
Barnlitt+vuxenlitt
1
0
Generell: rufsa
Samhällst+nyhet
1
0
Barnlitt+nyhet+
1
0
Generell: hitta_på
Neologism: chatta
Vuxenlitt
www.gu.s
e
Referenser:
• Björnsson, C.H. (1968). Läsbarhet. Liber, Stockholm.
• Chall, J. (1958). Readability. An appraisal of research and application.
Bureau of Educational Research, Ohio.
www.gu.s
e