Grammatik för språkteknologer Föreläsningsanteckningar November 2014 UPPSALA UNIVERSITET Institutionen för lingvistik och filologi Mats Dahllöf Ord och ordklasser Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur. 1 Ord – allmänt Ord: teoretiskt sett en ganska ”svår” typ av enhet, särskilt om man skall beskriva ett språk som inte har en skriftspråksnorm. Enheten ord är ofta mer ”självklar” när det finns etablerade skriftspråksnormer som kräver ordmellanrum. Men diskutabla fall finns: isn’t. t.ex.. Ord är grammatiskt sett hårt sammanbundna enheter. För svenskans del är också böjning och betoning viktiga kriterier. Det är viktigt att skilja mellan konkreta ord i texter (ordförekomster/löpord) och ord som enheter som ingår i ett språk. 1.1 Ordförekomst/löpord (eng. token) • Ordförekomst/löpord: Konkreta förekomster i text eller tal. • Löpord kan analyseras som instanser av olika sorters ordtyper. • Att segmentera en text i löpord kallas tokenisering i språkteknologiska sammanhang. Inte alltid helt lätt, med tanke på allt man kan stöta på i (elektroniska) texter. 1.2 Ordtyper, olika begrepp Ordtypsbegrepp: Abstrakta enheter, kan uppträda som godtyckligt antal löpord. Dessa är instanser/förekomster/tokens av typen. • Graford: definieras av teckensekvens. (Bestäms av ”tokenisering”.) (Versal/gemen kan ibland neutraliseras.) Ex. får – ett graford, som kan dyka upp i olika kontexter. (1) Vad får man lägga ut på webben? (2) En som har får som jag känner ska klippa dom på torsdag. • Lemma: ett ”uppslagsord” med samma ordklass- och böjningsmönster. T.ex. lägger, lade – lemmat lägga; skärm, skärmen – lemmat skärm. ”Grundformen” används som namn på lemmat. Bestämma vilket lemma ett löpord representerar i språkteknologiska system kallas lemmatisering. I exemplet ovan: får (1) – lemma verbet få och får (2) – lemma substantivet får. 1 • Lexem: en viss betydelse knuten till ett lemma och därmed till löpord. Bestämma vilket lexem ett löpord representerar i språkteknologiska system kallas word sense disambiguation. Exempel: betydelser hos verbet få (enligt Svensk ordbok, www.ne.se): 1 komma i besittning av 2 ha tillåtelse att 3 vara tvungen att 4 uppnå att påverka (ngn) 5 (plötsligt) komma att • Böjningsform: Ett lemma (eller lexem) med specificerad böjning. Former av älska: älska (infintiv), älskar (presens), älskande (presens particip), o.s.v. I exemplet ovan: får (1) – presens, aktiv av verbet få och får (2) – plural, obestämd form, grundkasus av substantivet får. Analysen av löpords lemma, lexem, böjningsform kräver ofta att vi beaktar kontexten. 2 Morfologi Tre huvudsakliga typer av morfologiska ”processer”: • Böjning: Inom samma lemma (och ordklass). Följer regelbundna mönster. Semantiskt förutsägbart. hus – huset, vara – är. • Avledning: Ger ett nytt lemma av ett befintligt m.h.a. affix (morfem som inte är ett ord). hus – huslig, hus – husera, prata – pratig. Det avledda lemmat böjs i sin tur (t.ex. huslig, husligare, husligast). Avledning byter ofta ordklass, men inte alltid. Form och semantik mindre förutsägbart. Lexikalisering – avledda ord har ofta en speciell etablerad betydelse. • Sammansättning: Ger nytt lemma av två givna. Mycket produktivt i svenskan. Semantik inte helt förutsägbar – man måste räkna ut aktuell relation mellan de begrepp orden representerar. Tänk t.ex. på datorväska, handväska, damväska och krokodilväska. Lexikalisering – sammansatta ord får ofta en speciell etablerad betydelse. T.ex. krokodiltårar. 2 3 Ordklasser – kriterier Tre typer av kriterier: • Böjning. Avgörande för substantiv, verb, adjektiv och adverb, och i viss mån för vissa andra ordklasser. Flera ordklasser har ingen böjning. • Funktion i syntaxen: (Potentiella) syntaktiska relationer till andra ord i texter och yttranden. • Betydelse (semantik): Typ av betydelse. Ofta svårtillämpat. Semantiska hänsyn kommer dock in i analysen av böjning och syntax. 3.1 Ordklassuppsättningar • Olika grammatiker har lite olika typer av uppsättningar med ordklassbegrepp. Det kan variera för ett språk. Tittar man på olika språk så kommer givetvis variationen att vara större. Substantiv och verb brukar vara de mest stabila begreppen, både för svenska och tvärspråkligt. • Vi kommer att utgå från Josefssons grammatik och från SUC’s ordklassetiketter, som stämmer väl överens. 3.2 Ordklasser, böjning, översikt Substantiv, verb, adjektiv: relativt regelbundna uppsättningar böjningsformer. Particip: adjektiviska former av verb. Perfekt particip kongruensböjs. Pronomen: varierande grupp lexem, varierande beteende. (Semantik: systematiskt kontextberoende referens.) Artiklar: liten grupp lexem, kongruens. (Syntax: knutna till substantiv.) Adverb: varierande grupp lexem, vissa uppvisar komparationsböjning. (Syntax: bestämmer verb, adjektiv och andra adverb.) Räkneord: grundtal och ordningstal, viss kongruens; oändligt många, men lätta att överblicka (en, två, tre. . . , och första, andra, tredje. . . ). Prepositioner, verbpartiklar, konjunktioner, subjunktioner, infinitivmärke, interjektioner böjs inte. 3.3 Böjningskategorier Böjningskategorier – de kategorier av information som uttrycks genom böjning. Detta brukar räknas till de viktigaste grammatiska egenskaperna hos ett språk. Vi kan tänka på böjningskategorier som dimensioner som kan anta olika ömsesidigt uteslutande värden. T.ex. numerus har antingen värdet singular eller plural. 3 4 4.1 Substantiv Substantiv – syntax Huvudord i s.k. nominalfraser, som förekommer som subjekt, olika typer av objekt, styrda av prepositioner, etc. Dessa är bland de viktigaste och vanligaste satsdelarna. 4.2 Substantiv – semantik Namn och beskrivande ord. Hör ofta ihop med rikhaltiga begrepp. Öppen ordklass – de flesta nya ord vi stöter på är substantiv. Nominalfraser används för att referera till olika saker. 4.3 Substantiv – tre böjningskategorier Numerus (eng. number): singular eller plural. Bestämdhet/species (eng. definiteness): obestämd eller bestämd. Kasus (eng. case): ”grundkasus” eller genitiv. 4.4 Genus (eng. gender) hos substantiv Substantiv tillhör ett av två genus i svenskan. Egenskap på lexemnivå. Avspeglas i böjningen, men kan inte påverkas av böjningen. Utrum , t.ex. (en) bil och (en) vrede. Neutrum , t.ex. (ett) hus och (ett) smör. Genus avspeglas i kongruensböjning i singular. Även för adjektiv, artiklar, pronomen. Genus ”syns” bara i singular. 4.5 Räknebara substantiv (eng. countable nouns) (8 former) numerus: singular numerus: plural obestämd form bil(s) hus fot(s) bilar(s) hus fötter(s) bestämd form bilen(s) huset(s) foten(s) bilarna(s) husen(s) fötternas(s) Med s så blir det kasus genitiv; annars ”grundkasus”. De två formerna sammanfaller ibland, t.ex. hus. 4.6 Icke-räknebara substantiv i svenskan (4 former) Substantiv som smör och vrede är svåra att kombinera med räkning och plural. 4 numerus: ”neutral”/singular obestämd form smör(s) vrede(s) bestämd form smöret(s) vreden(s) Med s så blir det kasus genitiv; annars ”grundkasus”. 4.7 Egennamn (eng. proper nouns) i svenskan (2 former) Egennamn — med s blir det kasus genitiv; annars grundkasus, t.ex. Stockholm och Stockholms; Anders Borg och Anders Borgs; Anders och Anders (formerna sammanfaller). Egennamn är vanligtvis i singular; ett fåtal är i plural, t.ex. Pyrenéerna. 5 Verb I svenskan är verben både vad gäller morfologi och syntax de ord som representerar de rikhaltigaste uppsättningarna möjlighter. Och det är ganska typiskt för språk, eftersom verben står för handlingar och händelser, och avspeglar dynamiken och rollfördelningarna i de begrepp vi använder för att tala om sådant. 5.1 Verb – syntax Verben är de centrala komponenterna i satser (och deras funktion då kallas predikat). Andra satsdelsfunktioner, som subjekt, olika typer av objekt och adverbial är syntaktiskt och semantiskt definierade i relation till verbet/predikatet. 5.2 Verb – semantik Representerar begrepp för handlingar, processer och tillstånd. Definierar roller i relation till dessa. T.ex. sälja: agens (säljare)/subjekt, tema (vara/tjänst)/direkt objekt, beneficient (köpare)/indirekt objekt. 5.3 Verb – böjning Verben är i många språk den kategori ord som har den rikaste och mest komplicerade böjningen. Det gäller även svenskan. (Olika grammatiker har lite olika synsätt på och terminologi för svenskans verbböjning.) Man brukar gör följande första uppdelning av verbformer: Finita: kan utan ”hjälp” av annan verbform stå som predikat i en sats. Infinita: måste (normalt) ha ”hjälp” av annan verbform för att ingå i en fullständig sats. Här hamnar infinitiv och supinum. (Även particip kan räknas hit, men Josefsson har dem som en egen ordklass.) En böjningskategori är tillämplig för både finita och vissa infinita former: 5 Diates (eng. voice): aktiv eller passiv. Påverkar syntaxen: I aktiv diates är det typiska att subjektet står för aktörsrollen (agens). I motsvarande passiv diates hamnar ett aktivt objekts roll i subjektsställning. (Passiv diates finns därför bara för transitiva verb, d.v.s sådana som tar objekt.) T.ex. (1) Aktiv diates: Ägaren [subjekt/agens] ska klippa fåren [objekt/tema] på torsdag. (2) Passiv diates: Fåren [subjekt/tema] ska klippas på torsdag. (klippa/klippas är aktiv infinitiv resp. passiv infinitiv.) Vi kan urskilja ytterligare en eller (eller två med modus) böjningskategorier för finita former: (Enkla) tempus (eng. tense): presens (nutid/framtid) eller preteritum (förfluten tid). (S.k. sammansatta tempus skapas med flera verbformer. T.ex. pluskvamperfekt, som i hade klippt). Modus: indikativ (vanligt påståendemodus), konjunktiv (som vore, finns bara fragmentariskt kvar i modern svenska) och imperativ (uppmaningsformen, se Josefsson). Imperativ måste vara framtidsorienterad och aktiv p.g.a. sin semantik. Och har ”andra person” som underförstått subjekt. Former i presens och preteritum är alltså finita; andra (infinitiv, supinum, participen) är infinita. Infinitiv är en tidsmässigt neutral form. Supinum förekommer ihop med det temporala hjälpverbet ha i sammansatta tempus som perfekt och pluskvamperfekt. perfekt, t.ex. har [presens av ha] jagat [supinum] pluskvamperfekt, t.ex. hade [preteritum av ha] jagat [supinum] Particip är adjektivartade verbformer, där presens particip s.a.s. står för subjektets/agens egenskap och perfekt particip för egenskapen hos objektet/temat. 5.4 Verb – max 13 former (om vi bortser från konjunktiv) infinitiv tempus: presens tempus: preteritum supinum imperativ presens particip perfekt particip ”neutral”/aktiv form jaga jagar jagade jagat jaga jagande (talspråk: jagandes) – 6 s-form/passiv form jagas jagas jagades jagats – – jagad, jagat, jagade Talspråkliga presens particip, som jagandes och läsandes, förekommer ibland i skrift. Uppgift: Hitta på två meningar där jagat är supinum respektive perfekt particip. infinitiv tempus: presens tempus: preteritum supinum imperativ presens particip perfekt particip ”neutral”/aktiv form läsa läser läste läst läs läsande(s) – s-form/passiv form läsas läses lästes lästs – – läst, läst, lästa Uppgift: Gör motsvarande tabell för skratta. 5.5 Kopulaverbet vara (viktigt och vanligt) infinitiv tempus: presens tempus: preteritum supinum imperativ presens particip perfekt particip ”neutral”/aktiv form vara är var varit var varande – s-form/passiv form – – – – – – – Uppgift: Gör motsvarande tabell för vara i betydelsen att ett sår uppvisar infektion. 6 6.1 Adjektiv Adjektiv – syntax Bestämmer substantiv och pronomen genom att ingå i nominalfraser (attributiv ställning) eller genom att kopplas till dem i satser med hjälp av kopulaverb (vara) (predikativ ställning). (Exempel nedan.) 6.2 Adjektiv – semantik Uttrycker egenskaper och relationer. 6.3 Adjektiv – böjning Hos adjektiven finns två typer av böjning, kan man säga, dels komparationsböjning, dels kongruensböjning. 7 Komparation – tre värden. Exempel, som inkluderar de olika kongruensformerna: positiv snäll, snällt, snälla, snälle stor, stort, stora, store dålig, dåligt, dåliga, dålige typisk, typiskt, typiska, typiske 6.4 komparativ snällare större värre mer typisk, etc. superlativ snällast, snällaste störst, största, störste värst, värsta, värste mest typisk, etc. Adjektivens kongruens Kongruensen visar vad adjektivet är kopplat till och avspeglar numerus, genus och bestämdhet, samt beror på om adjektivet står i attributiv (i en nominalfras) eller predikativ ställning (i ett predikativ utanför den fras det syftar på). Kongruens (illustrerande exempel): Obestämda nominalfraser som subjekt attributiv ställning (Art./attr.) stark form (huvudord) är En stor kastrull/kvinna/man är Ett stort hus är Flera stora hus är * Ett största hus. . . blir semantiskt felaktig. Stora kastruller/hus är Bestämda nominalfraser som subjekt attributiv ställning (Art./attr.) svag form (huvudord) är Den stora/största kastrullen/kvinnan är Deras stora/största kastrull/kvinna är Den store/störste mannen är Deras store/störste man är Det stora/största huset är Deras stora/största hus är De stora/största kvinnorna/männen/husen är Deras stora/största kvinnor/män/hus är predikativ ställning stark form stor. stort. stora. stora. predikativ ställning stark form stor/störst. stor/störst. stor/störst. stor/störst. stort/störst. stort/störst. stora/störst. stora/störst. Svag form: för attributiv ställning i bestämd NP. Stark form: för andra ställningar (i obestämd NP, predikativ ställning). Stark form singular: där avspeglas grammatiskt genus. Obligatoriskt. Svag form singular: där avspeglas naturligt genus (kön). Ej obligatoriskt. 6.5 Adjektiv med begränsad böjning/användning En del helt oböjliga adjektiv finns, t.ex. nuvarande och släkt. En del adjektiv måste kompareras med mer och mest, t.ex. typisk. Ibland är komparation semantiskt konstig. 8 Vissa adjektiv kan bara användas i en ställning: vår nuvarande regering (attributiv ok); vår regering är nuvarande (predikativ konstig). stolen är sönder (predikativ ok); vår sönder stol (attributiv konstig). Talspråkig lösning: vår söndriga stol. 7 Adverb • Semantik: svarar på när?, var? hur? (vagt kriterium). Motsvarande frågeord inkluderade. nu, idag, senare, här, där, överallt, därför, när, var, hur, varför, • Många är avledda av adjektiv och sammanfaller med -t-formen (ofta hur-ord): Ett snabbt (adj) lejon rör sig snabbt (adv). Flera snabba (adj) lejon rör sig snabbt (adv). • Satsadverb, typ: inte, tyvärr, nog, etc. • ja, nej. • Det finns olika sorters adverb. 7.1 Vissa adverb kompareras; de kongruensböjs aldrig positiv fort dåligt komparativ fortare värre superlativ fortast värst Ett adverb kongruensböjs aldrig, för det hör inte ihop med något nominalt led som det kan kongruera med. Exempel: Lejonet rörde sig snabbt (adverb). (Josefsson, s. 85.) Lejonen rörde sig snabbt (adverb). Ett snabbt lejon – Lejonet var snabbt (adjektiv). De snabba lejonen – Lejonen var snabba (adjektiv). 9 Definita ”pronominaladverb” i svenskan befintlighet var här där (där) uppe (där) nere (där) fram(me) (där) bak (till) vänster (till) höger öster söder väster norr 8 riktning mot vart/vartåt hit dit upp/uppåt ner/nedåt framåt bakåt åt vänster åt höger österut söderut västerut norrut riktning ifrån varifrån härifrån/hädan därifrån/dädan uppifrån nerifrån framifrån bakifrån vänsterifrån högerifrån österifrån söderifrån västerifrån norrifrån Pronomen • Etymologi: i stället för nomen (substantiv). • ”Hjälpord” för referens. • Relativt komplicerad ordklass vad gäller böjning, syntaktisk användning och semantik. • Semantisk huvudindelning: Definita (bestämda) pronomen Indefinita (obestämda) pronomen • Syntax: Vissa hör ihop med substantiv och kongruensböjs, andra används obundet. 8.1 Definita (bestämda) pronomen • Personliga (anaforiska) pronomen: jag, mig, du, dig, etc. Possessiva pronomen: min, din, etc. Reflexivt pronomen: sig Reflexivt och possessivt pronomen: sin • Demonstrativa pronomen: denna, detta, etc. • Determinativa pronomen: typ Den som är satt i skuld är icke fri. • Relativa pronomen: som, vars, etc. (I relativa bisatser.) 10 8.2 Indefinita pronomen • Kvantitativa pronomen: någon, varje, alla, många, etc. • Interrogativa (frågande) pronomen: vem, vad, hurdan (som fungerar som ett pro-adjektiv). (Ord som när, var, vart, varifrån, hur, varför är interrogativa adverb.) • Relationella pronomen: samma, annan, nästa, sista, egen, enda, etc. Personliga (anaforiska) pronomen Obs! Personliga pronomen kan referera till döda ting. Josefsson föredrar ”anaforiska pronomen”. Inom parentes: talspråkliga former. Person, numerus subjekts- objektspossessiv/genitiv genus, kön form form 1:a, sing. jag mig min, mitt, mina 1:a, plur. vi oss vår (våran), vårt (vårat), våra 2:a, sing. du dig din, ditt, dina 2:a, plur. ni er er (eran), ert (erat), era 3:e, sing., mask. han honom hans 3:e, sing., fem. hon henne hennes 3:e, sing., utr. den den dens 3:e, sing., neutr. det det dess 3:e, plur. de (dom) dem (dom) deras Reflexiva pronomen (särskilda former i 3:e person) Person, numerus genus, kön 3:e, sing., mask. 3:e, sing., fem. 3:e, sing., utr. 3:e, sing., neutr. 3:e, plur. 9 subjektsform (han) (hon) (den) (det) (de (dom)) REFLEXIV objektsform REFLEXIV possessiv sig sin, sitt, sina Prepositioner Prepositioner skapar tillsammans med en nominalfras, en infinitivfras, en bisats eller ett frågeord en s.k. prepositionsfras. Man säger att prepositioner ”styr” detta andra led. Prepositionen kommer först och styrda ledet sist. Semantiskt sett svarar prepositionen plus det styrda ledet på frågor som När?, Var? och Hur? (Detta är ett vagt kriterium.) (Hela frasen beter sig därmed ofta som ett adverb.) Prepositionsfraser kan bestämma nästan vilken typ av fras som helst, och placeras i de flesta fall efter huvudordet. Exempel: 11 överordnat huvudord beskattning övningar källa finnas arbetat avviker utförs lever Anledningen prepositionsfras (bestämning) preposition styrt led av inkomst med skarp ammunition till samhörighet och glatt kamratskap för beräkning i rörelsen från det civila i skarpladdad miljö på plankton till att sillen utgör en så ofantlig biomassa Prepositionsfraser kan också komma före ordet de bestämmer: prepositionsfras (bestämning) överordnat huvudord preposition styrt led Från årsskiftet gäller I avgiften ingår Med halvöppen vård menas Enligt de nya reglerna kan Ledet som prepositioner ”styr” kommer nästan alltid efter prepositionen. I vissa typer av satser kan detta led dock flyttas framåt, t.ex. för att befrågas i frågor eller topikaliseras i huvudsatser: Vem kan man lita på? Henne måste man alltså hålla sig borta ifrån. Sammanfattningsvis binder en preposition alltid ihop två delar: dels har vi en överordnad fras (med ett huvudord), dels har vi ledet som prepositionen styr. 10 Konjunktioner • Konjunktioner binder ihop till ”samordnade” konstruktioner: äpplen och päron. • Delarna kan vara av olika typer, men är av samma typ i de enskilda fallen. • Vanliga ord, få lemman: och, eller, samt, men. 12 10.1 Konjunktioner – samordning NP sl NP kn sl NP KN art hd art hd DT NN DT NN en hund en student och Denna typ av symmetrisk struktur – med jämbördiga samordnade led (sl ) är typisk. Även flerledade samordningar finns, som äpplen, päron och apelsiner. 11 Subjunktioner • Syntax: Subjunktioner inleder bisatser. • Semantik: anger den relation bisatsen står i till något objekt eller någon händelse. • Vanliga ord, relativt få lemman: att, innan, eftersom, om, medan. • Några ovanliga subjunktioner finns: ehuru, huruvida. 12 Infinitivmärke, bara ordet att Grafordet att kan vara subjunktion eller infinitivmärke. Olika uttal! • att som infinitivmärke hör alltid ihop med en infinitivförekomst. Vi planerar att [inf.m.] bygga ut vår utbildning i etapper i den takt som ekonomin tillåter med de fristående kurserna som bas. • att som subjunktion hör alltid ihop med en bisats. Här hoppas vi att [subjunktion] regeringen och utbildningsdepartementet ser behovet och nyttan av utbildningen och stödjer oss med särskilt avsatta medel. 13