Lärandemål Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Efter avslutad kurs skall studenten för att förtjäna betyget Godkänd minst kunna följande i relation till svenska eller engelska: (1) redogöra för relevansen av grammatisk analys för några viktiga språkteknologiska delområden; (2) definiera och/eller förklara ordkategoribegrepp och böjningskategorier som är aktuella i relation till aktuellt språk och diskutera sådana begreppsuppsättningar ur språkteknologiskt perspektiv; Oktober 2011 2 1 Lärandemål, forts. Lärandemål, forts. (3) analysera och ange godtyckliga ordformer (i ett textsammanhang) i termer av grundform, ordklass och böjningkategorier; (5) tillämpa frasstrukturanalys för svenska meningar och formulera kontextfria grammatiker för elementära fragment av svenska; (4) göra av grammatiska resonemang underbyggda analyser godtyckliga meningar (i ett textsammanhang) genom att ange de ingående ordens och frasernas syntaktiska funktioner i termer av traditionella satslösningsbegrepp och därvid urskilja viktiga typer av fraser, huvud och bisatser; (6) redogöra för begreppet dependens samt uttrycka och motivera satslösningsbaserade analyser av meningar som dependensträd; 3 (7) redogöra för användningen av annotationsmanualer i relation till språkteknologiska data. 4 Grammatiska grundinsikter • Lärandemålen förutsätter allmänna grammatiska grundinsikter. Traditionell skolgrammatik med djupare analytisk förståelse. Både morfologi och syntax. • För en språkteknolog (eller annan språkvetare) är detta viktiga grundkunskaper. Examination – salstentamen Följer lärandemålen, förstås. • Kunna svara på vissa elementära frågor. • Applicera analys på autentisk text. • Kunna exemplifiera utifrån grammatisk beskrivning. • Man bör ha mycket god förmåga att analysera svenska eller engelska (i princip all ”normal” text, allt tal). • Man skall kunna motivera analyser med grammatiska resonemang. 6 5 Grammatikens delar Grammatik vs semantik • FONOLOGI/ORTOGRAFI ljudförrådet, hur ljuden får kombineras (fonotax) grafemförrådet, hur grafem får kombineras (grafotax) • MORFOLOGI Relativt ”svår” distinktion, teoretiskt sett • GRAMMATIK (form) abstrakt form, ”grammatikalitet” • SEMANTIK (innehåll) strukturen inom ord, hur morfer bildar ord språkets relation till verkligheten, (syftning/referens) meningsfullhet och -löshet, sant och falskt, logik. • SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar större enheter 7 • Distinktionen kommer alltid att ha ett mått av vaghet och godtycke. Språkteknologer har i allmänhet en instrumentalistisk syn på uppdelningen. 8 Grammatisk analys i språkteknologin • Grammatiken kan ses som ett första steg i förståelsen av språk som språk. Språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. • Grammatiken ger en grovhuggen bild av innehållet. • Grammatik-, stavnings- och stilkontroll (givetvis). • Relevant för i stort sett alla delområden inom språkteknologin: Man kan nästan säga att det är känslighet för grammatisk struktur som definierar språkteknologi. • Informationssökning och -extraktion. • Maskinöversättning: analys av källspråket. • Talsyntes (intonation, disambiguering, etc). 9 Språkteknologisk relevans (2) Grammatik är även viktigt i språkteknologisk generering av yttranden/text: 10 Grammatisk analys ur ST-perspektiv • Hur skall analysen representeras formellt? Vilken ”grundtyp” är det? (Dependenser? Frasstrukturer? Eller?) • Maskinöversättning: generering till målspråket måste t.ex. repektera ordföljdsprinciper, kongruens och valens. • Hur skall analysen se ut? Teorin om språket ifråga. Annotationsmanual för mänskliga uppmärkare. • Dialogsystem: generera yttranden. • Hur kan vi automatiskt tilldela texter sådan här analys? (Parser.) Som bygger på inlärning? Som bygger på handskrivna regler? • Pedagogiska program: generera ”problem”. 11 12 Grammatik: deskriptiv eller normativ • Lingvister brukar framhålla att grammatiken bör vara deskriptiv och beskriva hur folk använder språk. • Grammatik används också för normativa syften. Den säger hur man bör uttrycka sig (för att tala/skriva korrekt). (Språkteknologi – språkgranskning.) I båda fallen utgår man ofta från ”vårdad prosa” och glömmer andra typer av text och tal. Grammatikalitetsdata, exempel • Svenska meningar som är OK: Hon ser på honom. Hon ser honom. Honom ser hon. • Svenska meningar som inte är OK: *Hon ser honom på. *Henne ser honom. *Ser honom hon. ”Grammatiska intuitioner” 13 Ord, lexem, ordformer • Ord: teoretiskt sett ganska ”svår” typ av enhet. Grammatiskt sett hårt sammanbundna enheter. Böjning. Betoning. ”Självklar” endast för vissa skrivna språk. Och inte ens då: isn’t. t.ex.. • Ordförekomst/löpord: Konkreta förekomster i text eller tal. • Förekomster kan taggas som instanser av olika sorters ordtyper. 15 14 Ordtyper, olika begrepp • Graford: definieras av teckensekvens. (Bestäms av ”tokenisering”.) Versal/gemen kan neutraliseras. • Lemma: ett ”uppslagsord” (abstrakt enhet) med samma ordklass- och böjningsmönster. T.ex. lägger/lade; skärm/skärmen. (”Lemmatisering”.) • Lexem: en bestämd betydelse knuten till ett lemma. (”Word sense disambiguation”.) • Böjningsform: Ett lemma (eller lexem) med specificerad böjning. Former av älska: älska (infintiv), älskar (presens), älskande (presens particip), o.s.v. 16 Ord måste analyseras i en kontext Morfologi (1) Vad får man lägga ut på webben? Tre huvudsakliga typer av morfologiska ”processer”: (2) En som har får som ja känner ska klippa dom på torsdag. • Samma graford: får. • Olika lemma (och därmed lexem och börjningsform). (1) Presens, aktiv, av verbet få. (2) Plural, obestämd, grundkasus av substantivet får. • Böjning: Inom samma lemma. Följer regelbundna mönster. Semantiskt förutsägbart. hus – huset, vara – är. • Avledning: Ger nytt lemma m.h.a. affix. hus – huslig, prata – pratig. Lexikalisering. Form och semantik mindre förutsägbart. • Sammansättning: Ger nytt lemma av två givna. Mycket produktivt i svenskan. Lexikalisering. Semantik inte helt förutsägbar. 17 18 Bestämma ordklass Ordklasser, böjning, översikt Tre typer av kriterier: Substantiv, verb, adjektiv: relativt regelbundna uppsättningar böjningsformer. • Böjning. Ofta det mest avgörande. • Syntax: (potentiella) relationer till andra ord. Pronomen: varierande grupp lexem, varierande beteende. • Semantik: typ av betydelse. Ofta svårtillämpat. Artiklar: liten grupp lexem, kongruens. Adverb: varierande grupp lexem, vissa uppvisar komparationsböjning. 19 20 Ordklasser, böjning, översikt II Räknebara substantiv i svenskan (8 former) Räkneord: grundtal och ordningstal, viss kongruens; oändligt många, men lätta att överblicka (en, två, tre. . . , och första, andra, tredje. . . ). numerus: singular bil(s) Particip: adjektiviska former av verb. Perfekt particip kongruensböjs. numerus: plural Prepositioner, verbpartiklar, konjunktioner, subjunktioner, infinitivmärke, interjektioner böjs inte. obestämd form bestämd form bilen(s) hus huset(s) bilar(s) bilarna(s) hus husen(s) Med s så blir det kasus genitiv; annars ”grundkasus”. De två formerna sammanfaller ibland, t.ex. hus. 21 22 Icke-räknebara substantiv i svenskan (4 former) Substantiv som smör och vrede är svåra att kombinera med räkning och plural. Genus Substantiv tillhör ett av två genus i svenskan. Egenskap på lexemnivå. Avspeglas i böjningen, men modifieras inte. • utrum, t.ex. bil och vrede. • neutrum, t.ex. hus och smör. obestämd form bestämd form numerus: smör(s) smöret(s) ”neutral”/singular vrede(s) vreden(s) Genus avspeglas i kongruensböjning i singular. Även för adjektiv, artiklar, pronomen. Med s så blir det kasus genitiv; annars ”grundkasus”. 23 24 Egennamn i svenskan (2 former) Verb i svenskan (ofta max 13 former) Egennamn — med s blir det kasus genitiv; annars grundkasus, ”neutral”/aktiv form s-form/passiv form t.ex. Stockholm och Stockholms; infinitiv jaga jagas Anders Borg och Anders Borgs; tempus: presens jagar jagas Anders och Anders (formerna sammanfaller). tempus: preteritum jagade jagades supinum jagat jagats imperativ jaga – presens particip jagande(s) – perfekt particip – jagad, jagat, jagade Egennamn är vanligtvis i singular; ett fåtal är i plural, t.ex. Pyrenéerna. 26 25 Verb i svenskan (ofta max 13 former) Kopulaverbet vara ”neutral”/aktiv form s-form/passiv form ”neutral”/aktiv form s-form/passiv form infinitiv läsa läsas infinitiv vara – tempus: presens läser läses tempus: presens är – tempus: preteritum läste lästes tempus: preteritum var – supinum läst lästs supinum varit – imperativ läs – imperativ var – presens particip läsande(s) – presens particip varande – perfekt particip – läst, läst, lästa perfekt particip – – 27 28 Verb i svenskan, mer Adjektiv i svenskan Passiv bara för transitiva verb, d.v.s som tar objekt. Komparation (med de olika kongruensformerna) Talspråkliga presens particip: jagandes, läsandes. positiv komparativ superlativ ”Modus” – indikativ (vanligt påståendemodus), konjunktiv (som vore) och imperativ (se Josefsson). Men det är mer naturligt att se imperativ som en separat finit form för modern svenska. Den måste vara framtidsorienterad (och aktiv) p.g.a. sin semantik. stor, stort, större stora, store dålig, dåligt, störst, största, störste värre dåliga, dålige värst, värsta, värste Oböjliga adjektiv finns, t.ex. nuvarande och släkt. 29 En del adverb kompareras; aldrig kongruens 30 Pronomen positiv komparativ superlativ • Etymologi: i stället för nomen (substantiv). fort fortare fortast • ”Hjälpord” för referens. dåligt värre värst • Relativt komplicerad ordklass vad gäller böjning, syntaktisk användning och semantik. Notera: • Semantisk huvudindelning: Lejonet rörde sig snabbt (adverb). (Josefsson, s. 85.) Ett snabbt lejon – Lejonet var snabbt (adjektiv). De snabba lejonen – Lejonen var snabba (adjektiv). FLER TYPER AV ADVERB FINNS! 31 Definita (bestämda) pronomen Indefinita (obestämda) pronomen • Syntax: Vissa hör ihop med substantiv och kongruensböjs, andra används obundet. 32 Definita (bestämda) pronomen • Personliga (anaforiska) pronomen: jag, mig, du, dig, etc. Possessiva pronomen: min, din, etc. Reflexivt pronomen: sig Reflexivt och possessivt pronomen: sin • Demonstrativa pronomen: denna, detta, etc. • Determinativa pronomen: typ Den som är satt i skuld är icke fri. Indefinita pronomen • Kvantitativa pronomen: någon, varje, alla, många, etc. • Interrogativa (frågande) pronomen: vem, vad, hurdan (som fungerar som ett pro-adjektiv). (Ord som när, var, vart, varifrån, hur, varför är interrogativa adverb.) • Relationella pronomen: samma, annan, nästa, sista, egen, enda, etc. • Relativa pronomen: som, vars, etc. (I relativa bisatser.) 33 34