Från aspekt till övergripande – en nätbaserad lista över svenskt

Från aspekt till övergripande
– en nätbaserad lista över svenskt
akademiskt ordförråd
Håkan Jansson, Judy Ribeck & Emma Sköldberg
Institutionen för svenska språket
Göteborgs universitet
NFL, Oslo 2013
En svensk akademisk ordlista
Utarbetad vid Institutionen för svenska språket i Göteborg
Elektronisk och fritt tillgänglig via Språkbanken
Drygt 650 uppslagsord
Baserad på publicerade universitetstexter
avhandlingar
vetenskapliga artiklar
15 olika forskningsämnen
• Målgrupper
främst universitetsstuderande med olika språklig bakgrund
• Funktioner
produktion av (svensk akademisk) text
reception
dokumentation
•
•
•
•
Upplägg
•
•
•
•
•
Om tidigare akademiska ordlistor
Vår akademiska korpus
Kriterier vid urval av uppslagsord
Kort om uppslagsorden
Den akademiska ordlistan: information och visningslägen
Om tidigare akademiska ordlistor
• The University Word List (UWL) (Xue & Nation 1984)
• The Academic Word List (AWL) (Coxhead 2000, 2002)
• The Louvain EAP Dictionary (LEAD) (Granger & Paquot 2010a, 2010b)
• The Academic Keyword List (AKL) (Paquot 2010)
• Svenska/nordiska akademiska ordlistor
Sköldberg & Johansson Kokkinakis 2012
Jansson et al. 2012
Johansson Kokkinakis et al. 2012
Carlund et al. 2012
Metod: utgångspunkt
Inspirerade av metoder hos Coxhead (2000) och Paquot (2010):
• sätta samman en akademisk korpus
• utifrån korpusen ta fram en akademisk ordlista grupperad i
ordfamiljer
• ta bort högfrekventa ordfamiljer
• välja ut ämnesneutrala ord
• ta fram nyckelord genom att jämföra med annan korpus
SveAk-korpusen
Humaniora
Etnologi
Filosofi
Antal ord
Samhällsvetenskap
1 668 691 Ekonomi/näringsliv
853 444 Juridik
Antal ord
1 886 324
682 560
Historia
2 704 124 Medie-/kommunikationsvetenskap
Konst
1 649 537 Psykologi
Litteraturvetenskap
2 358 974 Social/ekonomisk geografi
1 621 081
Religion
2 957 366 Sociologi
1 838 189
Språkvetenskap
2 286 877 Statsvetenskap
1 556 733
Utbildningsvetenskap
Totalt (ord)
14 479 013
1 130 813
339 848
1 826 970
10 882 518
Bearbetning av texterna
• Tokenisering
• Ordklasstaggning
• Lemmatisering
Kriterier vid urval
Identifiering av ord som
1.
inte ingår bland de 1000 vanligaste orden i svenska
språket (jfr Läsbart-korpusen)
2.
är jämnt spridda i de olika ämnestexterna
3.
är mer frekventa i de akademiska texterna än i en
referenskorpus med skönlitteratur
Resultat: 655 ord
• 10 i topp:
dock, studie, beskriva, social, enligt, innebära, samt,
form, betydelse, fall
• 10 i botten:
indelning, felaktig, skede, granskning, beträffande,
dynamisk, inverkan, låg, passiv, intensiv, art
ORDKLASS
substantiv
verb
adjektiv
adverb
övriga
AO %
42
26
14
8
10
AKL %
38
25
19
9
9
SO 2009 %
68
14
15
2
1
Täckningsgrad
• Hela SveAk: 11,9 %
– Litteraturvetenskap: 9,9%
– Psykologi: 14,1%
• Externa tidskrifter: 10,7%
Förekomster,
nyckelordsordning
1-100
101-200
201-300
301-400
401-500
501-600
601-700
Listans nuvarande utseende
Informationstyper
lemma, ordklass, böjning, betydelse , redigerat språkprov, engelsk översättning
http://spraakbanken.gu.se/ao/
Tillägg av information
Lemman: ej ordfamiljer
Ordklass: automatiskt via taggning
Böjning: från Lexins svenska lexikon (2011)
Betydelser: samtliga i Lexin svenska lexikon (2011)
ex. relation
• Språkprov: redigerade, från SveAk,
ex. dock
• Engelsk översättning: automatiskt från Lexin
•
•
•
•
Visning:
alfabetisk ordning
Visning:
frekvens- och spridningsbaserad
Framtiden
• Akademiska ord
– Utvidgning med fraser
– Underlag för ordtester och undervisningsmaterial
• Ordlistan
–
–
–
–
Information på alla uppslagsord
Markering av vanligare betydelser
Utvärdering av engelska ekvivalenter
Etc.
Referenser
Bauer, Laurie & Paul Nation. 1993. ‘Word families.’ International Journal of Lexicography, 6, s.253-279
Carlund, Carina, Sofie Johansson Kokkinakis, Judy Ribeck, Håkan Jansson & Julia Prentice. 2012. ’An academic word list for Swedish – a support for
language learners in higher education.’ I: Proceedings of the SLTC 2012 workshop on NLP for CALL. Linköping Electronic Conference Proceedings 80:20–27.
[tillgänglig elektroniskt: http://www.ep.liu.se/ecp/080/003/ecp12080003.pdf].
Coxhead, A. 2000. ‘A New Academic Word List.’ TESOL Quarterly 34:2, 2000, 213-238.
Coxhead, A. 2002. ‘The Academic Word List: A Corpus-based Word List for Academic Purposes.’ I: Kettemann, B. and G. Marko (red.), Teaching and Learning
by Doing Corpus Analysis. Proceedings of the Fourth International Conference on Teaching and Language Corpora, Graz 19–24 July, 2000. Amsterdam/New
York, 73–89.
Granger, S. & M. Paquot 2010a. ’Customising a general EAP dictionary to meet learner needs’. In Granger, S. & M. Paquot (eds) (2010) eLexicography in the
21st century: New challenges, new applications. Proceedings of ELEX2009. Cahiers du CENTAL. Louvain-la-Neuve, Presses universitaires de Louvain, 87-96.
Granger, S. & M. Paquot . 2010b. ‘The Louvain EAP Dictionary (LEAD).’ I: Dykstra, A. and T. Schoonheim (red.), Proceedings of the XIV Euralex International
Congress, Leeuwarden 6–10 July 2010. Ljouwert, 321–326.
Jansson, Håkan, Sofie Johansson Kokkinakis, Judy Ribeck & Emma Sköldberg. 2012. ‘A Swedish Academic Word List: Methods and Data.’ I: Fjeld, Ruth
Vatvedt & Julie Matilde Torjusen (red.), Proceedings of 15th EURALEX International Congress 7-11 August, 2012,. Oslo: Department of Linguistics and
Scandinavian Studies, University of Oslo. s.955-960. [tillgänglig elektroniskt: http://gup.ub.gu.se/publication/162496-a-swedish-academic-word-listmethods-and-data].
Johansson Kokkinakis, Sofie, Emma Sköldberg, Birgit Henriksen, Kari Kinn & Janne Bondi Johannessen. 2012. ‘Developing Academic Word Lists for
Swedish, Norwegian and Danish–a joint research project.’ I: Fjeld, Ruth Vatvedt & Julie Matilde Torjusen (red.), Proceedings of the 15th EURALEX
International Congress. Oslo: Department of Linguistics and Scandinavian Studies, University of Oslo. s.563-569. [tillgänglig elektroniskt:
http://www.euralex.org/elx_proceedings/Euralex2012/pp563-569%20Kokkinakis,%20Skoldberg,%20Henriksen,%20Kinn%20and%20Johannessen.pdf].
Lexins svenska lexikon 2011. <http://lexin2.nada.kth.se/lexin/>
Paquot, M. 2010. ‘Academic Vocabulary in Learner Writing: From Extraction to Analysis’. London & New-York: Continuum, 56-58.
Sköldberg, E. and S. Johansson Kokkinakis 2012. ’A och O om akademiska ord. Om framtagning av en svensk akademisk ordlista.’ I: Eaker, Birgit, Lennart
Larsson & Anki Mattisson (red.), Nordiska studier i lexikografi 11. Rapport från Konferensen om lexikografi i Norden Lund 24−27 maj 2011. Lund, 575-585.
Språkbanken:
–
Akademisk ordlista: <http://spraakbanken.gu.se/ao/>
–
SveAk: <http://spraakbanken.gu.se/korp/#corpus=sweachum,sweacsam>
–
Norstedtsromaner 1999: < http://spraakbanken.gu.se/korp/#corpus=rom99>
–
Läsbart: < http://spraakbanken.gu.se/korp/#corpus=lasbart>
Xue, G. &I.S.P. Nation 1984. ‘A University Word List.’ Language Learning and Communication 3, 2, 215-229.
West, M. 1953. ’A general service list of English words: with semantic frequencies and a supplementary word-list for the writing of popular science and
technology.’ Longman, London.
Förekomster i text, nyckelordsordnade
1-100
101-200 201-300 301-400 401-500 501-600 601-655