Free construction of a Swedish dictionary of synonyms - CSC

advertisement
Fria ordböcker och andra
språkresurser
Viggo Kann
professor i datalogi vid KTH
Symposium om språk och Internet, 14 maj 2008
Vad är en fri språkresurs?




Anyone can use it in an application
Anyone can study it and modify it
Anyone can take a copy of it
Anyone can improve it, release the
improvements to the public, so that
the whole community benefits
(baserat på Four freedoms of free software,
Richard Stallman)
Stark och världsomspännande
rörelse för fri programvara
GNU-projektet
 FSF – Free Software Foundation
 GPL – GNU General Public License
 OSI – Open Software Initiative
 Linux, TeX, Emacs, GCC, MySQL,
PHP, Java, Python, Firefox

Gruppen Fria svenska ord hade sitt
första möte på KTH i januari 2008
11 personer från hela Sverige
 Lars Aronsson: projekt Runeberg och
svenska Wikipedia (Wiktionary)
 Lars Törnquist och Sven Lange:
Svensk tesaurus byggd på Bring (1930)
 Christian Mattson: Lexin - lexikon
Niklas Johansson: Stavningskontroll
och rättstavning i OpenOffice
 Göran Andersson: DSSO – Den stora
svenska ordlistan
 Viggo Kann: Stava, Granskataggaren,
Synlex, Tvärslå - nordiskt lexikon
 Per Starrbäck, Leif-Jöran Olsson,
Tomas Padron-McCarthy, Erik Geijer

Planer för fler fria språkresurser
Svenska synonymer i OpenOffice
(Niklas)
 Utvidga DSSO med synonymer,
associationer etc (Göran)
 Bygg en fri svensk-engelsk ordbok
(Viggo)
 Testa svensk grammatikkontroll i
Languagetool/OpenOffice
(Viggo&Niklas)

Typiska sätt att konstruera en resurs
…om du är en
…om du är en frispråkteknolog:
programvaruhacker:
 Skaffa finansiering
 Använd andra fria
resurser
 Använd resurser som
är tillgängliga för
 Samla data från
forskare
massor av människor,
t ex med wiki eller
 Anställ lingvister som
webbformulär
gör det stora jobbet
Exempel: Synlex
Skapa ett svenskt synonymlexikon som
en lista av synonyma ordpar
 Jag är lat och vill inte jobba så mycket
 Jag är snål och vill inte anställa någon
 Det konstruerade synonymlexikonet ska
bli en fri språkresurs

Idéer
Konstruera automatiskt en massa
ordpar som kan vara synonymer
 Använd tiotusen människor som var och
en är villig att bidra en smula utan
betalning, genom att kontrollera ordpar

Fler idéer
Använd Lexins svensk-engelska
lexikons webbsida som hade 9 miljoner
(nu 25 M) uppslagningar varje månad.
 Användare besöker Lexin för att
översätta ord och är därför nog
motiverade att hjälpa mej.
 Vid varje uppslagning får användaren
möjlighet att avgöra om två ord är
synonymer.

Analys av användarnas
bedömningar
1,2 miljoner gjordes på mindre än 2
månader
 Jag gjorde statistik och följde
utvecklingen och ställde in
urvalskriterier och skräpdatatrösklar
 Många användare lämnade synpunkter

Bättre och bättre bedömningar
allteftersom
60%
50%
40%
2005
2006
2007
30%
20%
10%
0%
0
1
2
3
4
5
vet inte
Lite statistik (2008)
2,8 M bedömningar har gjorts
 75 000 ordpar (bedömda ≥ 2) i lexikonet
 108 000 användarföreslagna ordpar
 62 000 olika användarordpar
 20 000 av dom har accepterats

Exempel: Synonymer till klass
5: rang
rank
slag
4: kategori
stånd
årskurs
3: fack
grad
grupp
kvalitet
nivå
3: sort
standard
stil
2: skikt
storleksordning
typ
1: poäng
stadga
0: uppdrag
utbilda
Hur undviks missbruk?
Många bedömningar krävs innan ett
ordpar anses vara bra
 Ordparen som ska föreslås väljs
slumpmässigt från en enorm lista
 Ordpar som föreslås av användarna
stavningskontrolleras innan dom läggs
till den enorma listan

Folkets definition av synonymitet
Exakta betydelsen av 'synonym'
definierades inte.
 Användarna bedömer efter sin intuitiva
bild av konceptet synonymitet.
 Det skapade lexikonet bygger på folkets
egen definition av synonymitet, vilket
förhoppningsvis är precis vad folket vill!

Länkar
www.dsso.se
Den stora svenska ordlistan
 www.nada.kth.se/stava Stavningsprogram
 lexin.nada.kth.se/synlex.html
75 000 synonymer
 sv.wiktionary.org 50 000-ords lexikon
 www.thesauruslex.com Hyperlexikon
 spraakbanken.gu.se Saldo – svenskt
associationslexikon

Download