Fria ordböcker och andra språkresurser Viggo Kann professor i datalogi vid KTH Symposium om språk och Internet, 14 maj 2008 Vad är en fri språkresurs? Anyone can use it in an application Anyone can study it and modify it Anyone can take a copy of it Anyone can improve it, release the improvements to the public, so that the whole community benefits (baserat på Four freedoms of free software, Richard Stallman) Stark och världsomspännande rörelse för fri programvara GNU-projektet FSF – Free Software Foundation GPL – GNU General Public License OSI – Open Software Initiative Linux, TeX, Emacs, GCC, MySQL, PHP, Java, Python, Firefox Gruppen Fria svenska ord hade sitt första möte på KTH i januari 2008 11 personer från hela Sverige Lars Aronsson: projekt Runeberg och svenska Wikipedia (Wiktionary) Lars Törnquist och Sven Lange: Svensk tesaurus byggd på Bring (1930) Christian Mattson: Lexin - lexikon Niklas Johansson: Stavningskontroll och rättstavning i OpenOffice Göran Andersson: DSSO – Den stora svenska ordlistan Viggo Kann: Stava, Granskataggaren, Synlex, Tvärslå - nordiskt lexikon Per Starrbäck, Leif-Jöran Olsson, Tomas Padron-McCarthy, Erik Geijer Planer för fler fria språkresurser Svenska synonymer i OpenOffice (Niklas) Utvidga DSSO med synonymer, associationer etc (Göran) Bygg en fri svensk-engelsk ordbok (Viggo) Testa svensk grammatikkontroll i Languagetool/OpenOffice (Viggo&Niklas) Typiska sätt att konstruera en resurs …om du är en …om du är en frispråkteknolog: programvaruhacker: Skaffa finansiering Använd andra fria resurser Använd resurser som är tillgängliga för Samla data från forskare massor av människor, t ex med wiki eller Anställ lingvister som webbformulär gör det stora jobbet Exempel: Synlex Skapa ett svenskt synonymlexikon som en lista av synonyma ordpar Jag är lat och vill inte jobba så mycket Jag är snål och vill inte anställa någon Det konstruerade synonymlexikonet ska bli en fri språkresurs Idéer Konstruera automatiskt en massa ordpar som kan vara synonymer Använd tiotusen människor som var och en är villig att bidra en smula utan betalning, genom att kontrollera ordpar Fler idéer Använd Lexins svensk-engelska lexikons webbsida som hade 9 miljoner (nu 25 M) uppslagningar varje månad. Användare besöker Lexin för att översätta ord och är därför nog motiverade att hjälpa mej. Vid varje uppslagning får användaren möjlighet att avgöra om två ord är synonymer. Analys av användarnas bedömningar 1,2 miljoner gjordes på mindre än 2 månader Jag gjorde statistik och följde utvecklingen och ställde in urvalskriterier och skräpdatatrösklar Många användare lämnade synpunkter Bättre och bättre bedömningar allteftersom 60% 50% 40% 2005 2006 2007 30% 20% 10% 0% 0 1 2 3 4 5 vet inte Lite statistik (2008) 2,8 M bedömningar har gjorts 75 000 ordpar (bedömda ≥ 2) i lexikonet 108 000 användarföreslagna ordpar 62 000 olika användarordpar 20 000 av dom har accepterats Exempel: Synonymer till klass 5: rang rank slag 4: kategori stånd årskurs 3: fack grad grupp kvalitet nivå 3: sort standard stil 2: skikt storleksordning typ 1: poäng stadga 0: uppdrag utbilda Hur undviks missbruk? Många bedömningar krävs innan ett ordpar anses vara bra Ordparen som ska föreslås väljs slumpmässigt från en enorm lista Ordpar som föreslås av användarna stavningskontrolleras innan dom läggs till den enorma listan Folkets definition av synonymitet Exakta betydelsen av 'synonym' definierades inte. Användarna bedömer efter sin intuitiva bild av konceptet synonymitet. Det skapade lexikonet bygger på folkets egen definition av synonymitet, vilket förhoppningsvis är precis vad folket vill! Länkar www.dsso.se Den stora svenska ordlistan www.nada.kth.se/stava Stavningsprogram lexin.nada.kth.se/synlex.html 75 000 synonymer sv.wiktionary.org 50 000-ords lexikon www.thesauruslex.com Hyperlexikon spraakbanken.gu.se Saldo – svenskt associationslexikon