Grammatik f ¨or spr˚akteknologer

Lärandemål
Grammatik för språkteknologer
Introduktion
http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/
Mats Dahllöf
Institutionen för lingvistik och filologi
Efter avslutad kurs skall studenten för att förtjäna betyget
Godkänd minst kunna följande i relation till svenska eller
engelska:
(1) redogöra för relevansen av grammatisk analys för några
viktiga språkteknologiska delområden;
(2) definiera och/eller förklara ordkategoribegrepp och
böjningskategorier som är aktuella i relation till aktuellt språk
och diskutera sådana begreppsuppsättningar ur
språkteknologiskt perspektiv;
Oktober 2011
2
1
Lärandemål, forts.
Lärandemål, forts.
(3) analysera och ange godtyckliga ordformer (i ett
textsammanhang) i termer av grundform, ordklass och
böjningkategorier;
(5) tillämpa frasstrukturanalys för svenska meningar och
formulera kontextfria grammatiker för elementära fragment av
svenska;
(4) göra av grammatiska resonemang underbyggda analyser
godtyckliga meningar (i ett textsammanhang) genom att ange
de ingående ordens och frasernas syntaktiska funktioner i
termer av traditionella satslösningsbegrepp och därvid urskilja
viktiga typer av fraser, huvud och bisatser;
(6) redogöra för begreppet dependens samt uttrycka och
motivera satslösningsbaserade analyser av meningar som
dependensträd;
3
(7) redogöra för användningen av annotationsmanualer i
relation till språkteknologiska data.
4
Grammatiska grundinsikter
• Lärandemålen förutsätter allmänna grammatiska
grundinsikter. Traditionell skolgrammatik med djupare
analytisk förståelse. Både morfologi och syntax.
• För en språkteknolog (eller annan språkvetare) är detta
viktiga grundkunskaper.
Examination – salstentamen
Följer lärandemålen, förstås.
• Kunna svara på vissa elementära frågor.
• Applicera analys på autentisk text.
• Kunna exemplifiera utifrån grammatisk beskrivning.
• Man bör ha mycket god förmåga att analysera svenska
eller engelska (i princip all ”normal” text, allt tal).
• Man skall kunna motivera analyser med grammatiska
resonemang.
6
5
Grammatikens delar
Grammatik vs semantik
• FONOLOGI/ORTOGRAFI
ljudförrådet, hur ljuden får kombineras (fonotax)
grafemförrådet, hur grafem får kombineras (grafotax)
• MORFOLOGI
Relativt ”svår” distinktion, teoretiskt sett
• GRAMMATIK (form)
abstrakt form, ”grammatikalitet”
• SEMANTIK (innehåll)
strukturen inom ord, hur morfer bildar ord
språkets relation till verkligheten, (syftning/referens)
meningsfullhet och -löshet, sant och falskt, logik.
• SYNTAX
strukturen inom fraser(, satser och meningar)
hur orden bildar större enheter
7
• Distinktionen kommer alltid att ha ett mått av vaghet och
godtycke. Språkteknologer har i allmänhet en
instrumentalistisk syn på uppdelningen.
8
Grammatisk analys i språkteknologin
• Grammatiken kan ses som ett första steg i förståelsen av
språk som språk.
Språkteknologisk relevans (1)
Man behöver analysera grammatisk struktur i många
språkteknologiska tillämpningar.
• Grammatiken ger en grovhuggen bild av innehållet.
• Grammatik-, stavnings- och stilkontroll (givetvis).
• Relevant för i stort sett alla delområden inom
språkteknologin: Man kan nästan säga att det är känslighet
för grammatisk struktur som definierar språkteknologi.
• Informationssökning och -extraktion.
• Maskinöversättning: analys av källspråket.
• Talsyntes (intonation, disambiguering, etc).
9
Språkteknologisk relevans (2)
Grammatik är även viktigt i språkteknologisk generering av
yttranden/text:
10
Grammatisk analys ur ST-perspektiv
• Hur skall analysen representeras formellt? Vilken
”grundtyp” är det? (Dependenser? Frasstrukturer? Eller?)
• Maskinöversättning: generering till målspråket måste t.ex.
repektera ordföljdsprinciper, kongruens och valens.
• Hur skall analysen se ut? Teorin om språket ifråga.
Annotationsmanual för mänskliga uppmärkare.
• Dialogsystem: generera yttranden.
• Hur kan vi automatiskt tilldela texter sådan här analys?
(Parser.) Som bygger på inlärning? Som bygger på
handskrivna regler?
• Pedagogiska program: generera ”problem”.
11
12
Grammatik: deskriptiv eller normativ
• Lingvister brukar framhålla att grammatiken bör vara
deskriptiv och beskriva hur folk använder språk.
• Grammatik används också för normativa syften. Den säger
hur man bör uttrycka sig (för att tala/skriva korrekt).
(Språkteknologi – språkgranskning.)
I båda fallen utgår man ofta från ”vårdad prosa” och glömmer
andra typer av text och tal.
Grammatikalitetsdata, exempel
• Svenska meningar som är OK:
Hon ser på honom.
Hon ser honom.
Honom ser hon.
• Svenska meningar som inte är OK:
*Hon ser honom på.
*Henne ser honom.
*Ser honom hon.
”Grammatiska intuitioner”
13
Ord, lexem, ordformer
• Ord: teoretiskt sett ganska ”svår” typ av enhet.
Grammatiskt sett hårt sammanbundna enheter. Böjning.
Betoning.
”Självklar” endast för vissa skrivna språk.
Och inte ens då: isn’t. t.ex..
• Ordförekomst/löpord: Konkreta förekomster i text eller tal.
• Förekomster kan taggas som instanser av olika sorters
ordtyper.
15
14
Ordtyper, olika begrepp
• Graford: definieras av teckensekvens. (Bestäms av
”tokenisering”.) Versal/gemen kan neutraliseras.
• Lemma: ett ”uppslagsord” (abstrakt enhet) med samma
ordklass- och böjningsmönster. T.ex. lägger/lade;
skärm/skärmen. (”Lemmatisering”.)
• Lexem: en bestämd betydelse knuten till ett lemma.
(”Word sense disambiguation”.)
• Böjningsform: Ett lemma (eller lexem) med specificerad
böjning. Former av älska: älska (infintiv), älskar (presens),
älskande (presens particip), o.s.v.
16
Ord måste analyseras i en kontext
Morfologi
(1) Vad får man lägga ut på webben?
Tre huvudsakliga typer av morfologiska ”processer”:
(2) En som har får som ja känner ska klippa dom på torsdag.
• Samma graford: får.
• Olika lemma (och därmed lexem och börjningsform).
(1) Presens, aktiv, av verbet få.
(2) Plural, obestämd, grundkasus av substantivet får.
• Böjning: Inom samma lemma. Följer regelbundna
mönster. Semantiskt förutsägbart. hus – huset, vara – är.
• Avledning: Ger nytt lemma m.h.a. affix.
hus – huslig, prata – pratig.
Lexikalisering. Form och semantik mindre förutsägbart.
• Sammansättning: Ger nytt lemma av två givna.
Mycket produktivt i svenskan.
Lexikalisering. Semantik inte helt förutsägbar.
17
18
Bestämma ordklass
Ordklasser, böjning, översikt
Tre typer av kriterier:
Substantiv, verb, adjektiv: relativt regelbundna uppsättningar
böjningsformer.
• Böjning. Ofta det mest avgörande.
• Syntax: (potentiella) relationer till andra ord.
Pronomen: varierande grupp lexem, varierande beteende.
• Semantik: typ av betydelse. Ofta svårtillämpat.
Artiklar: liten grupp lexem, kongruens.
Adverb: varierande grupp lexem, vissa uppvisar
komparationsböjning.
19
20
Ordklasser, böjning, översikt II
Räknebara substantiv i svenskan (8 former)
Räkneord: grundtal och ordningstal, viss kongruens; oändligt
många, men lätta att överblicka (en, två, tre. . . , och första,
andra, tredje. . . ).
numerus: singular bil(s)
Particip: adjektiviska former av verb. Perfekt particip
kongruensböjs.
numerus: plural
Prepositioner, verbpartiklar, konjunktioner, subjunktioner,
infinitivmärke, interjektioner böjs inte.
obestämd form bestämd form
bilen(s)
hus
huset(s)
bilar(s)
bilarna(s)
hus
husen(s)
Med s så blir det kasus genitiv; annars ”grundkasus”. De två
formerna sammanfaller ibland, t.ex. hus.
21
22
Icke-räknebara substantiv i svenskan (4
former)
Substantiv som smör och vrede är svåra att kombinera med
räkning och plural.
Genus
Substantiv tillhör ett av två genus i svenskan. Egenskap på
lexemnivå. Avspeglas i böjningen, men modifieras inte.
• utrum, t.ex. bil och vrede.
• neutrum, t.ex. hus och smör.
obestämd form bestämd form
numerus:
smör(s)
smöret(s)
”neutral”/singular vrede(s)
vreden(s)
Genus avspeglas i kongruensböjning i singular. Även för
adjektiv, artiklar, pronomen.
Med s så blir det kasus genitiv; annars ”grundkasus”.
23
24
Egennamn i svenskan (2 former)
Verb i svenskan (ofta max 13 former)
Egennamn — med s blir det kasus genitiv; annars grundkasus,
”neutral”/aktiv form s-form/passiv form
t.ex. Stockholm och Stockholms;
infinitiv
jaga
jagas
Anders Borg och Anders Borgs;
tempus: presens
jagar
jagas
Anders och Anders (formerna sammanfaller).
tempus: preteritum jagade
jagades
supinum
jagat
jagats
imperativ
jaga
–
presens particip
jagande(s)
–
perfekt particip
–
jagad, jagat, jagade
Egennamn är vanligtvis i singular; ett fåtal är i plural, t.ex.
Pyrenéerna.
26
25
Verb i svenskan (ofta max 13 former)
Kopulaverbet vara
”neutral”/aktiv form s-form/passiv form
”neutral”/aktiv form s-form/passiv form
infinitiv
läsa
läsas
infinitiv
vara
–
tempus: presens
läser
läses
tempus: presens
är
–
tempus: preteritum läste
lästes
tempus: preteritum var
–
supinum
läst
lästs
supinum
varit
–
imperativ
läs
–
imperativ
var
–
presens particip
läsande(s)
–
presens particip
varande
–
perfekt particip
–
läst, läst, lästa
perfekt particip
–
–
27
28
Verb i svenskan, mer
Adjektiv i svenskan
Passiv bara för transitiva verb, d.v.s som tar objekt.
Komparation (med de olika kongruensformerna)
Talspråkliga presens particip: jagandes, läsandes.
positiv
komparativ superlativ
”Modus” – indikativ (vanligt påståendemodus), konjunktiv
(som vore) och imperativ (se Josefsson). Men det är mer
naturligt att se imperativ som en separat finit form för modern
svenska. Den måste vara framtidsorienterad (och aktiv) p.g.a.
sin semantik.
stor, stort,
större
stora, store
dålig, dåligt,
störst, största,
störste
värre
dåliga, dålige
värst, värsta,
värste
Oböjliga adjektiv finns, t.ex. nuvarande och släkt.
29
En del adverb kompareras; aldrig kongruens
30
Pronomen
positiv komparativ superlativ
• Etymologi: i stället för nomen (substantiv).
fort
fortare
fortast
• ”Hjälpord” för referens.
dåligt
värre
värst
• Relativt komplicerad ordklass vad gäller böjning,
syntaktisk användning och semantik.
Notera:
• Semantisk huvudindelning:
Lejonet rörde sig snabbt (adverb). (Josefsson, s. 85.)
Ett snabbt lejon – Lejonet var snabbt (adjektiv).
De snabba lejonen – Lejonen var snabba (adjektiv).
FLER TYPER AV ADVERB FINNS!
31
Definita (bestämda) pronomen
Indefinita (obestämda) pronomen
• Syntax: Vissa hör ihop med substantiv och kongruensböjs,
andra används obundet.
32
Definita (bestämda) pronomen
• Personliga (anaforiska) pronomen: jag, mig, du, dig, etc.
Possessiva pronomen: min, din, etc.
Reflexivt pronomen: sig
Reflexivt och possessivt pronomen: sin
• Demonstrativa pronomen: denna, detta, etc.
• Determinativa pronomen:
typ Den som är satt i skuld är icke fri.
Indefinita pronomen
• Kvantitativa pronomen: någon, varje, alla, många, etc.
• Interrogativa (frågande) pronomen: vem, vad, hurdan
(som fungerar som ett pro-adjektiv).
(Ord som när, var, vart, varifrån, hur, varför är
interrogativa adverb.)
• Relationella pronomen: samma, annan, nästa, sista, egen,
enda, etc.
• Relativa pronomen: som, vars, etc. (I relativa bisatser.)
33
34