Ett direkttextningssystem för SVT - Institutet för språk och folkminnen

Ett direkttextningssystem för SVT
1 Beskrivning av projekt
1.1 Bakgrund
Sveriges Television (SVT) skall i enlighet med nu gällande sändningstillstånd tillse att minst 65%
av programmen i företagets huvudkanaler (SVT1 och SVT2) är textade. Textning av TV-program
sker för att personer med hörselnedsättning skall kunna ta del av SVT:s programutbud. Det
beräknas att drygt 1 miljoner svenska har hörselskador eller hörselnedsättning av sådan art att
textning är nödvändigt för att uppnå full begriplighet.
Frågan om programtextning i TV har i olika omgångar uppmärksammats av riksdagen och
riksdagens kulturutskott. Ett flertal motioner med krav på bättre textservice har behandlats och
textningen av SVT:s program utgör en prioriterad fråga för den nu sittande statliga public
service-utredningen.
SVT arbetar aktivt för att utveckla volymen textade program, med målsättning att så snart
tekniken gör det möjligt, närma oss hundraprocentig texning. Det finns också förväntningar om
ökade krav i ett nytt sändningstillstånd. Men för att nå sådana höga mål krävs dock en ny teknisk
lösning för textproduktion vid direktsända program. Av dessa skäl är det viktigt att ett nytt
verktyg för direkttextning blir tillgängligt de närmaste åren. Utan ett sådant kommer SVT inte att
nå upp till det långsiktiga målet om full textning.
Den nu använda arbetsmetoden utvecklades på 1980-talet och bygger på snabbinskrivning av text
via sk Velotype-tangentbord. Manuell snabbtextning är mycket krävande och någon utveckling
sker inte längre av de tekniska hjälpmedel som används.
I några länder har därför en övergång skett till automatisk taligenkänning för hantering av
direkttextning. Den nya tekniken har visat sig vara en bra metod. Man använder då i första hand
så kallade ”skuggtalare” som formulerar och uttalar den text som skall visas. Man kan därför göra
taligenkänningen talaranpassad. Automatisk taligenkänning förutsätter emellertid att en språklig
infrastruktur finns tillgänglig. Av naturliga skäl har skapandet av denna grundval främst inriktats
på ett begränsat antal världsspråk. Taligenkänningstekniken är därför idag enbart förbehållen
TV-företag som verkar inom stora språkområden, exempelvis BBC.
Även om teknik och metoder idag alltså föreligger för programtextning via automatisk
taligenkänning utgör bristen på infrastruktur för svenska ett avgörande hinder för att ta i bruk en
modern teknik.
SVT tog under 2006 initiativ till en offentlig upphandling i syfte att låta utveckla en
taligenkänningsmjukvara på svenska. Upphandlingen fick dock avbrytas eftersom ingen
anbudslämnare kunde infria de uppställda kraven eller ansåg det vara av intresse att utveckla den
nödvändiga grundstrukturen för ett så litet språk som det svenska.
Det är mot bakgrund av ovanstående förhållanden som här deltagande parter tagit initiativ till ett
projekt med mål att utveckla en svensk infrastruktur för taligenkänning.
1.2 Mångsidig användbarhet
Även om det ursprungliga behovet emanerar från ett intresse av att utveckla direkttextningen av
TV-program utgör detta enbart en av en mängd möjliga tillämpningar för en svensk
taligenkänningsinfrastruktur.
Ett stort antal intressen och behov både inom den offentliga sektorn och i det privata näringslivet
skulle kunna tillgodoses när talat språk i näst intill realtid kan överföras till skriven text. Genom
att koppla olika applikationer till en lämpligt utformad språkdatabas kan en stor mångsidighet i
funktionalitet och användande uppnås.
Framtagandet av en infrastruktur för svensk taligenkänning skall därför inte betraktas som ett
specifikt intresse för personer med hörselskador eller hörselnedsättning, eller för användning
inom televisionen, utan bör framför allt ses en vital nationell angelägenhet med stor
näringspolitisk och kulturell räckvidd.
Utvecklingen av den taligenkänningsteknik som idag efterfrågas av SVT möjliggör tillämpningar
inom andra områden, som exempelvis textning av befintliga arkiv och indexering och sökning i
talmaterial och talarberoende dikteringstillämpningar. Detta projekt lägger därutöver en viktig
grund för fortsatt utveckling mot framtida, mer avancerade tillämpningar. Bland dessa kan
nämnas direkttextning utan ”skuggtalare” eller talaroberoende dikteringstjänster.
I figur 1 nedan beskrivs närliggande tillämpningar inom storvokabulärtaligenkänning för naturligt
tal och deras relationer av svårighetsgrad/teknikhöjd. SVT:s talarberoende tekniska målsättning i
dagsläget är markerad med tjock ram där ”textning” innefattar både igenkänning av skuggtalare
och rättning av igenkänningsresultatet.
Figur 1. Illustration av olika närliggande taligenkänningstillämpningar.
1.3 Behov och prestanda
Den efterfrågade taligenkänningsmjukvaran skall ha tillräckliga prestanda för att klara
talarberoende taligenkänning av kontinuerligt talat språk.
SVT:s behov av taligenkänning skiljer sig från merparten av andra tillämpningar eftersom stora
krav ställs avseende talhastighet och igenkänningsnoggrannhet. Vid erfarenheter dragna från
röststyrd direkttextning i andra länder och vid faktiska försök på SVT med dagens befintliga
svenska taligenkänningssystem har en miniminivå hittats för träffsäkerhet och
igenkänningshastighet. Denna nivå är satt så att taligenkänning ska vara praktiskt användbar vid
storskalig direkttextning med bibehållen kvalitet motsvarande dagens manuella
Velotype-textning.
Ordigenkänningsnivån skall med marginal överstiga 90 % i genomsnitt för ett 30 minuters
återdikterat tv-program av nyhetskaraktär. Igenkänningstiden per ord skall i genomsnitt vara
under tre sekunder och får aldrig överstiga fyra sekunder. En igenkänningsmotor som designas
för att klara SVT:s behov skiljer sig därmed från merparten av de system som idag finns på
marknaden för att klara detta nästan-realtidskrav med stor ordlista.
I första fasen skall systemet klara att texta väderpresentationer. Därefter sker en utvärdering av
uppnått resultat och beslut fattas om projektets fortsättande in i fas två. Den andra fasen innebär
en breddning av systemets tillämpningsområden med vidare utveckling till nya språkliga
domäner. Detta för att nå fram till det slutliga målet där taligenkänningen måste hålla sådan
kvalitet att tv-program av allmän karaktär kan textas. Försök på SVT har visat att det är mycket
svårt att karaktärisera program så att de faller inom väl avgränsade domäner. Basordlistan måste
därför vara omfattande. SVT:s önskemål är att den motsvarar i storlek Svenska akademins
ordlista samt även innehåller egennamn och ortsnamn i den omfattning som vanligen
förekommer i svenskt tal. Ordlistans storlek skall i ringa omfattning påverka igenkänningstid och
igenkänningsnivå.
Ett ord som saknas i ordlistan skall i möjligaste mån inte feltolkas. Befintlig
taligenkänningsteknik tolkar oftast saknade ord så att hela den omkringliggande meningen blir
förvanskad. SVT:s önskemål är att om taligenkänningssannolikheten ligger under ett givet
tröskelvärde skall en felaktig tolkning inte göras utan textaren skall istället uppmärksammas så att
manuell korrigering kan göras.
De försökspersoner som SVT har använt (både utbildade direkttextare och andra) har kunnat lära
sig att utföra denna korrigering samtidigt som man fortsätter att återdiktera pågående program.
Detta förutsatt att igenkänningsnivån är tillräcklig så att korrigering maximalt behöver göras
några gånger i minuten.
Utmärkande för ord som behöver korrigeras är enligt SVT:s erfarenheter att de under pågående
sändning kommer att återupprepas ett antal gånger, men att de senare inte kommer att förekomma
i tv-program på lång tid.
För att på lång sikt garantera systemets användbarhet och prestanda krävs ett kontinuerligt arbete
med systemunderhåll och uppdatering av tal- och språkdata. Detta arbetsområde, som skulle
kunna beskrivas som en fas tre, omfattas inte av detta projekt.
Delprojektets syfte är att studera rimligheten i ovan ställda krav och eventuella alternativa
lösningar för att slutresultatet på textningsservicen till tittarna håller motsvarande kvalitet trots att
igenkänningsnivå och –tid från taligenkänningsmotorn understiger ovanstående gränsvärden.
Sammanfattningsvis skall taligenkänningsmjukvaran konstrueras med standardiserade protokoll
för att kunna integreras i olika systembyggnader. Systemets egenskaper skall motsvara högt
ställda krav avseende parametrarna;
- Träffsäkerhet (Andel ord som är korrekt tolkade.)
- Realtidsfunktionalitet (Minimal tid mellan ljudregistrering och textvisning.)
- Ordhantering (Möjlighet till lärande kompletteringsfunktion.)
- Integrerbarhet (Möjlighet till systemintegrering.)
2 Projektplan för ett direkttextningssystem för SVT
Projektet är ett första steg för att skapa en talstyrd textningsservice. För att skaffa erfarenhet har
projektet konstruerats med en s.k. parallell avtappning, där ett delmål utgörs av ett system för
direkttextning av väderleksrapporter. Projektet delas upp i ett antal utvecklingssteg som
behandlar brukarnas behov, en infrastruktur för tal- och spåkdata, utveckling av taligenkännare,
samt en integrering med SVT:s textsystem.
För att den slutliga tillämpningen på bästa sätt skall tillgodose de intressen och önskemål som
föreligger från den del av TV-publiken som har behov av kontinuerlig textning av pågående
program skapas en referenspanel där de hörselskadades intresseorganisationer finns
representerade.
Projektplanens olika delprojekt beskrivs nedan.
2.1 Brukare- och användarbehov
Detta delprojekt syftar till att säkra att projektets resultat verkligen motsvarar vad användarna vill
ha samt att hålla brukarorganisationer informerade om projektets framskridande.
Delprojektet består av tre delar:
1) Specificering av brukarnas behov i form av prestanda och nivåer hos olika parametrar i
systemet, med hjälp av befintlig kunskap och eventuellt nya brukarundersökningar, om så
behövs.
2) Tester och utvärderingar med brukare enligt vedertagna metoder vid lämpliga tillfällen.
3) Upprättande av en referensgrupp med representanter för olika brukargrupper. Fortlöpande
dialog och informationsutbyte med referensgruppen under projektets hela gång.
2.2 Infrastruktur
2.2.1 Taldata
Talkorpora, det vill säga inspelade taldatabaser, där man märkt upp vad som sagts, eventuellt
kompletterat med övrig information, till exempel beträffande störningar, är grundläggande för att
modellera taligenkänningen. Erfarenheten visar att ju bättre databasen stämmer med den slutliga
användningen och användarna desto bättre blir resultatet. I ett första steg gäller det att ta reda på
vilka befintliga taldatabaser som kan vara relevanta för projektet. Avsikten är att i första hand
bygga upp en allmän taldatabas med läst tal, eftersom läst tal både är lättare att spela in och att
märka upp. Vi bedömer att man behöver ca 100 olika talare. Emellertid är inspelningar från den
tänkta användningen nödvändiga för att bäst kunna träna, testa och utvärdera olika
igenkänningssystem. Dessa inspelningar kan även användas för att anpassa systemen till de
tänkta skuggtalarna. Inspelningarna måste lyssnas igenom och märkas, annoteras. Detta är ett
tidsödande arbete som tar ca 50 gånger den inspelade taltiden och för detta behöver man träna
särskild personal som sedan får utföra märkningen. Eventuellt behöver befintliga metoder och
redskap för märkning modifieras först. Taldata bör sedan analyseras och beskrivas, till exempel
vad gäller täckning av olika akustisk-fonetiska enheter, ingående ord, ordens
förekomstfrekvenser med mera.
2.2.2 Lexikon
Den vokabulär som systemet ska klara av beskrivs i ett lexikon där en fonetisk transkription
beskriver uttalet av orden. Ord som kan förväntas uttalas på olika sätt får flera transkriptioner.
Även här gäller, liksom för taldata, att ta reda på vilka befintliga lexika som finns. Dessa måste
under alla förhållanden kompletteras med ytterligare ord med hänsyn tagen till den slutliga
användningen. Ordens ortografi och transkriptioner ska vara standardiserade. Speciellt får man ta
hänsyn till den höga frekvensen av utländska ord i vissa domäner. Dessa ställer naturligtvis
särskilda krav på transkriptionen och den akustiska modelleringen.
För nyhetsprogram tillkommer dagligen nya ord och begrepp som man måste kunna hantera vid
textningen. Ett sätt att göra det kan vara att dagligen gå igenom nyhetstexter på Internet och leta
efter nya ord. De vanligaste och viktigaste får sorteras ut via en filtrering som förmodligen måste
övervakas manuellt. Orden transkriberas sedan fonetiskt och läggs till igenkänningslexikonet. För
detta måste en lämplig mjukvara utvecklas.
Lexikonet analyseras med avseende på frekvenser och täckningsgrader för olika domäner.
Idag befintliga redskap klarar förmodligen det mesta av lexikonhanteringen, men till exempel den
inkrementella utökningen av vokabulären kommer att kräva en nyutveckling.
2.2.3 Språkdata
De statistiska språkmodeller som utnyttjas av taligenkänningsmotorerna beräknas på texter som
företrädesvis ansluter sig så nära som möjligt till den tänkta tillämpningen. Även här gäller att ta
reda på vilka befintliga språkdata som kan vara användbara och att även utnyttja de specifika data
som spelas in med tanke på den slutliga användningen. Ingångsdata till beräkningarna är dels
rena, relevanta textdata, dels det ortografiskt transkriberade tal man får vid annoteringen av
taldata. Texterna skall tokeniseras, normaliseras och standardiseras vad gäller stavning,
gemena/versaler, förkortningar och akronymer. Rena textdata, till exempel från SVT:s textsidor
om väderleksrapporter kan användas. Ännu bättre är att använda utskrifter från direkttextningen
eftersom återspeglar hur skuggtalaren kommer att uttrycka sig. Texterna analyseras med
avseende på exempelvis ordfrekvenser, n-gram, perplexitet och täckningsgrad. N-gram är en
statistisk beskrivning av språket som anger hur sannolika olika ord är beroende på olika antal
föregående ord. Perplexitet beskriver hur svårt ett språk är. Grovt sett anger det hur många ord
som kan följa på ett givet ord i språket. En siffersekvens har lägre perplexitet än en nyhetstext.
Täckningsgraden beskriver hur bra språkmodellen täcker all observerade yttranden.
För att göra textningen generellt användbar måste språkmodellen utvecklas. Det kan göras så att
man lägger till nya domäner en i taget, exempelvis nyheter, sport, kultur och så vidare. Inför
textning av en given programtyp aktiverar man motsvarande språkmodell samtidigt som man
väljer rätt akustisk modell för den aktuella skuggtalaren. I ett längre perspektiv kan man tänka sig
att bygga upp mer omfattande språkmodeller som kan hantera flera domäner. Ett slutmål kan vara
att ha enbart en generell språkmodell.
Även språkmodellen bör modifieras inkrementellt med hänsyn till nytillkomna ord enligt ovan
under avsnittet om lexikon.
2.3 Taligenkännare
Detta arbetspaket omfattar utveckling av taligenkänningssystem för SVTs ändamål samt
integrering av de modeller och resultat, som tas fram i flera av de övriga arbetspaketen. Avsikten
är att den infrastuktur, data och modeller som tas fram följer öppna standarder och format så att
de nedan i 2.3.1 och 2.3.2 kan anpassas till ett eller flera taligenkänningssystem som i tur
utvecklas för SVTs behov i 2.3.3.
2.3.1 Akustiska modeller
Genom datadrivna processer som akustisk träning och adaption görs en sammanvägning av
talkorpora, uttalslexika och övrig fonetisk språkspecifik kunskap. Resultatet blir modeller på
akustisk-fonetisk nivå för att hantera olika talare, talstilar och svenska dialekter. Dessa akustiska
modeller utgör en viktig komponent till taligenkännaren som sedan kan kombineras med
modeller med kunskap på språklig/syntaktisk nivå.
2.3.2 Språkmodeller
Anpassning av de statistiska språkmodellerna behöver göras för att passa ett specifikt
igenkänningssystem formatmässigt. Målsättningen bör vara att utveckla ett flexibelt gränssnitt så
att därefter nya språkmodeller på standardformat kan automatkonverteras utan specifikt
anpassningsarbete.
2.3.3 Igenkänningsmotor
Infrastrukturella resurser, modeller och standarder är gemensamma och separeras från enskild
parts kod/mjukvara. SVT-anpassade akustiska modeller, uttalsmodeller och språkmodeller
integreras i detta arbetspaket till s.k. komposita modeller så att hela taligenkänningskedjan – från
tal till text – kan verifieras i realtid (online). I syfte att utvärdera prestanda hos modellerna bör
också ett offline-system upprättas som ”baseline”, mot vilket test-simuleringar kan köras. Arbetet
omfattar dessutom eventuell justering av s.k. frontend-processning (signalbehandling,
särdragsextraktion ur talsignalen), optimering av de komposita modellerna för att förbättra
prestanda, samt andra ev. anpassningar av taligenkännaren för textningsapplikationen (ex.
anpassning av utmatningsformat etc.). För de igenkänningssystem som SVT-modellerna
integreras i, skall sedan utvärdering göras för att utvärdera modellernas kvalitet och individuella
egenskaper.
2.4 Integrering i SVTs prototyp
2.4.1 Uppbyggnad av system
Integrering i SVTs prototyp
Mjukvara för undertextning innefattande även direkttextning finns kommersiellt tillgänglig från
flertalet leverantörer.
SVT använder idag Softel Swift i kombination med qwerty- samt Velotype-tangentbord. Swift
har även visst stöd för att använda taligenkänning som inmatningsmetod. Dels genom att
taligenkänningsmotorn integrerar med Windows och emulerar ett tangentbord. Utmatning sker då
där markören är placerad, i det här fallet i Swift applikationen. Dels genom ett API där utdata
från taligenkänningen skickas direkt in i Swift.
SVT har inte för avsikt att nyutveckla ett textningssystem utan att integrera dagens och eventuella
framtida textningssystem med igenkänningsmotorn.
Detta delprojekt ska utreda om någon av de befintliga gränssnittspecifiktionerna (SAPI m.fl.)
stödjer de krav SVT har på integration mellan textningssystem och igenkänningsmotor. I det fall
att något sådant API inte kan hittas skall delprojektet föreslå hur ett sådant gränssnitt skall
utformas.
Målet vid utvecklingen av väderprototypen är inte att fullständigt integrera Swift, då detta får ses
som ett allt för omfattande arbete som även involverar en extern leverantör. En enklare prototyp
som visar möjligheterna med tvåvägs interaktion mellan textningssystem och
taligenkänningmotor för utbyte av tolkad text och återföring av korrigeringar bör utvecklas och
utvärderas. Denna prototyp skall även ge möjlighet till dagligt underhåll av lexikon och
språkmodeller baserad på aktuella nyhetstexter.
3 Tidsplan och resursbehov
I nedanstående schema visas tidplanen för projektets 36 månader. Genom fas 1 (18 mån) läggs
grunden för slutförandet och den tekniska genomförbarheten för projektmålen verifieras. Därefter
tar fas 2 vid som fortgår 18 månader fram till färdigt direkttextningssystem redo för driftsättning.
[Infällda tiderär tentativa förslag.]
Tidplan och faser
Aktiviteter
Fas 2 (Domän SVT)
Fas 1 (Väderpilot)
Uppstart
Bemanning
Ansvarsområden
Verktyg
2.2 Infrastruktur
2.2.1 Taldata
2.2.2 Lexikon
2.2.3 Språkdata
2.3 Taligenkännare
2.3.1 Akustiska modeller
2.3.2 Språkmodeller
2.3.4 Igenkänningsmotor
2.4 Integrering I SVT's Miljö
Systemuppbyggnad
2.4.2 Uppdateringprogram
2.4.3 Träning av textare
2.4.4 Tester & utvärdering
Beslutspunkt Fas 2
Produktifiering
Dokumentation, Support, Utbildning
18 mån
36 mån
Tid
Figur 2. Tidplan och projektfaser
Uppskattat resursbehov för varje delprojekt
Delprojekt
Projektledning
Arbetsbeskrivning
Tre år halvtid
Uppskattad
kostnad kSEK
4800
2.1 Brukare och
användarbehov
2.2.1 Taldata
500
En dialekt för generell igenkännare
(inspelning och uppmärkning)
4000
100 talare läst tal (100 timmar)
20 timmar skuggtalare (inspelning och
uppmärkning)
2.2.2 Lexikon
2000
2.2.3 Språkdata
2000
2.3.1 Akustiska
modeller
1500
2.3.2 Språkmodeller
1500
2.3.3 Taligenkännare
4000
2.4 Integrering i
prototyp
500
4 Organisation
Projektet har en ledning och en styrgrupp. Ledningens uppgift är att leda projektet och hantera
alla de frågor som uppstår under arbetets gång. En styrgrupp representerar alla intressenter som
deltar i projektet.
4.1 Styrgrupp
Styrgruppen har övergripande ansvar för projektet. Styrgruppen representerar samtliga
intressenter och har en sammankallande ordförande. Styrgruppen träffas ett på förhand
överenskommet antal gånger om året eller vid behov.
4.2 Ledning
Ledningens ansvar är se till att projektet löper enligt den uppsatta planen och består av en
projektledare och en ledningsgrupp. Projektledaren har huvudansvaret för projektets utförande.
Ledningsgruppen består av projektledaren och projektledarna för varje delprojekt.
Ledningsgruppen sammanträffas regelbundet.
4.3 Delprojekt
Projektet delas upp i ett antal delprojekt. Varje delprojekt har en projektledare.
4.4 Referensgrupp
En referensgrupp bildas under året för att inhämta synpunkter och behov från användarna.
4.5 Beskrivning av deltagare
4.5.1 Hjälpmedelsinstitutet
Hjälpmedelsinstitutet, tidigare Handikappinstitutet, bildat 1968, är ett nationellt kunskapscentrum
inom området hjälpmedel och tillgänglighet för människor med funktionsnedsättning.
Institutet arbetar för full delaktighet och jämlikhet genom att medverka till bra och säkra
hjälpmedel, en effektiv hjälpmedelsverksamhet och ett tillgängligt samhälle.
Hjälpmedelsinstitutets verksamhet omfattar forskning och utveckling, utredningsverksamhet,
provning och stöd vid upphandling av hjälpmedel, utbildning och kompetensutveckling,
information och kommunikation samt internationell verksamhet. På institutet arbetar cirka 90
personer.
Hjälpmedelsinstitutets huvudmän är staten och Sveriges Kommuner och Landsting.
Institutet har sedan många år tillbaka ett nära samarbete med avdelningen för tal, musik och
hörsel på KTH rörande kommunikation för personer med funktionsnedsättning. Institutet var
också ledande i det projekt som tog fram och introducerade de svenska Velotype-tangentborden,
inklusive utbildning av operatörer, för manuell snabbtextning som fortfarande används av SVT
för direkttextning.
4.5.2 IBM Svenska AB
IBM är ett av världens ledande företag inom informationsbehandling. Med fler än 355 000
medarbetare och tusentals teknik- och affärspartner över hela världen är vi ett globalt integrerat
företag. IBM Svenska AB grundades år 1928 och har i dag ca 3 300 anställda i Sverige. På ett
hundratal orter där vi inte själva har kontor representeras IBM av våra samarbetspartner,
certifierade IBM Business Partner, som säljer våra produkter och lösningar. Under mer än 50 år
har IBM varit tongivande i att driva datorutvecklingen framåt och satsar varje år 5-6 miljarder
dollar på forskning och utveckling. Över 3 000 forskare arbetar i IBM:s
grundforskningslaboratorier i USA, Kina, Israel, Schweiz, Japan och Indien.
För IBM är tillgänglighet viktigt därför skapade IBM år 2003 ett antal Tillgänglighetscentra ”
Human Ability and Accessibility Centers ” i USA, Europa, Japan, Brasilien, Kina och Australien.
Dessa centers hjälper IBM att se till att våra produkter och tjänster är tillgängliga för personer
med funktionsnedsättning. Centren verkar för en gemensam standard, applicerar
forskningsteknologier, skapar industribaserade lösningar och informerar om tillgänglighet. IBM:s
Tillgänglighetscenter har en direkt koppling till IBM:s forskningscenter runt om i världen. Ny
teknologi testas tillsammans med partners och kunder. IBM vill gå längre än standard och
regelverk för att förbättra integrationen med informationsteknologi.
IBM har varit en ledare inom utvecklingen av taligenkänning i 40 år. IBM:s produkt för
taligenkänning, Automated Speech Recognition (ASR), heter ViaVoice och används i flera
applikationer däribland ViaScribe. ViaScribe används av bl.a. universitet för att i realtid
omvandla föreläsarens tal till text som presenteras på en storbildskäm och kan läsas av
hörselskadade elever. ViaScribe utvecklas tillsammans med en organisation som heter Liberated
Learning Consortium. ViaVoice används även i ett undertextsystem som utvecklats av Read
Bee Media för BBC i England samt i produkten Protitle Live som utvecklats av Ninsight för ett
franskt TV-bolag.
4.5.3 KTH
Avdelningen för tal, musik och hörsel, skolan för datavetenskap och kommunikation, KTH, har
varit en internationellt erkänd forskningsgrupp i mer än trettio år. Talgruppen engagerar omkring
25 seniorer och doktorander. Arbetet innefattar grundlägganden forskning inom
talkommunikation, talsyntes och taligenkänning och flera talteknologiska områden som
dialogsystem and hjälpmedel för kommunikationshindrade. Skapandet av en infrastruktur för
talteknologi kommer att bli en viktig grund för forskningen. Huvudinriktningen är att förstå hur
talad mänsklig kommunikation sker och hur denna kunskap skall kunna modelleras i
människa-maskin interaktion. Forskningen kring multimodala dialogsystem är tvärveteskaplig
och kombinerar talteknologi med lingvistik, kognition, psykologi och datavetenskap. Gruppen
deltar i ett flertal EU-projekt och är också representerad i styrelsen för International Speech
Communication Association (ISCA) board and the European Language and Speech Network
(ELSNET) board. CTT (Centre for Speech Technology) är placerad vid institutionen och är
organiserad som en plattform för samarbete mellan industri och akademisk forskning. CTT
tillhörde första generationens kompetenscentra som finansierades av VINNOVA och är nu
finansierad genom enskilda projekt.
Talgruppens forskning kan grupperas i föjande huvudinriktningar: Metoder för automatisk
talförståelse, Principer för talarkarrakäristik, Talproduktion för multimodal talsyntes,
Språkteknologi för interaktiva dialogsystem, Skapandet av en infrastruktur för talteknologi,
Talteknologiska kommunikationshjälpmedel.
4.5.4 Sveriges Television AB
SVT är ett oberoende medieföretag i allmänhetens tjänst. Företaget utgör ett aktiebolag och ägs
av en stiftelse. SVT sänder program i 7 TV-kanaler och har en omfattande verksamhet på
webben. SVT har en årlig omsättning på ca 4 miljarder kronor. Företaget bedriver verksamhet på
30 orter runt om i landet och har 3.000 anställda. Verksamheten som finansieras via TV-avgifter
styrs via ett av riksdagen fastställt flerårigt sändningstillstånd där ramarna för verksamheten
anges. Årligen fattar riksdagen även beslut om företagets finansieringsvillkor där bland annat
TV-avgiftens storlek regleras. 2007 sändes 81 av de 100 mest sedda svenska TV-programmen i
någon av SVT:s kanaler.
Sveriges Television är enligt nu gällande sändningstillstånd skyldiga att texta 65 procent av
programmen i företagets huvudkanaler SVT1 och SVT2. Detta uppdrag infrias. SVT:s ambition
är dock att snarast möjligt kunna erbjuda undertextning i huvudkanalernas samtliga program där
tal förekommer.
4.5.5 TeliaSonera
TeliaSonera är det ledande telekommunikationsföretaget i Norden och Baltikum med starka
positioner internationellt inom mobil kommunikation i Eurasien, inklusive Turkiet och Ryssland.
I slutet av 2006 lanserade TeliaSonera framgångsrikt mobiltjänster i Spanien. TeliaSonera
erbjuder pålitliga, innovativa och användarvänliga tjänster för överföring och paketering av ljud,
bild, data, information, transaktioner och underhållning. TeliaSonera ser enkelhet och service
som viktiga verktyg för att skapa långsiktig, hållbar tillväxt och värde för sina kunder och
aktieägare. TeliaSonera siktar på att genom sina internationella affärsområden tillvarata den
starka tillväxten inom mobilitets- och bredbandstjänster och integrerade företagstjänster och den
höga tillväxten på marknaderna österut.
TeliaSonera har lång och gedigen erfarenhet av tal- och språkteknologiområdet och har utvecklat
och lanserat flera tjänster inom detta område. TeliaSonera har deltagit i åtskilliga nationella och
internationella forskningsprojekt och har bl.a. deltagit som en av de största intressenterna i
Centrum för Talteknologi vid KTH och har bidragit till instiftandet av en professur i talteknologi
med inriktning på svenska språket vid denna institution.
4.5.6 UR
Sveriges Utbildningsradio AB (UR) är ett av tre programbolag inom public service.
Verksamheten finansieras i huvudsak av tv-avgiftsmedel. UR:s uppdrag är att producera och
distribuera utbildningsprogram för användning i förskola, ungdomsskola, högskola och
vuxenutbildning. UR har även ett folbildningsansvar och ska bidra till att väcka intresse för
bildning och kunskap. UR arbetar flermedialt med produktion av tv- och radioprogram och webb.
Även text-tv och trycksaker fyller viktiga pedagogiska uppgifter.
UR:s nuvarande sändningstillstånd löper t.o.m. 2009. UR förfogar över 4,75 % av de
tv-avgiftsmedel som fördelas till programbolagen. UR:s sändningsvolym i tv uppgick under 2006
till 1739 timmar och i radio till 584 timmar. UR:s utbud används i stor omfattning. I grundskolan
använde 74 % av alla lärare bild- och ljudmaterial från UR under 2006. Utlåningen av
UR-program från mediecentralerna uppgick till drygt 910.000 program.
UR:s uppdrag avser även språkliga och etniska minoriteter samt funktionshindrade. De resurser
som UR avsätter för funktionshindersområdet ska öka under tillståndsperioden särskilt i fråga om
åtgärder för ökad tillgänglighet och förbättrad hörbarhet. Alla URs program som riktar sig till en
publik över tio år textas med såväl öppen som dold text samt översättningar av utländska språk.
Under 2006 uppgick andelen svensktextade program till närmare 80 % av det totala tv-utbudet.
4.5.7 Veridict AB
Veridict AB är ett svenskt högteknologiföretag med specialisering inom talteknologi och
automatisk taligenkänning. Företaget är forskningsavknoppning från KTH och grundades 2006
efter mångårig forskning vid Centrum för Talteknologi vid KTH. Veridict utvecklar och säljer
idag avancerad taligenkänningsteknik för professionellt bruk och krävande tillämpningsområden.
Idag har Veridict samarbeten med ett antal större börsnoterade svenska bolag och organisationer.
Därtill finns fortsatta starka kopplingar till forskningen vid KTH. Veridict har med sin teknologi
erhållit flera utmärkelser, och har bl.a. vunnit första pris i affärstävlingen Venture Cup 2006 och
erhållit statliga VINNOVA´s och Energimyndigheten innovationpris VINN NU år 2006.
Företaget har sitt huvudkontor beläget i WennerGren-Center i Stockholm. Veridict befinner sig i
dag i ett starkt tillväxtskede och expanderar för närvarande verksamheten i Stockholm.
5 Projektrisker
Utvecklingen av en struktur för svensk taligenkänning är, som framgår av föreliggande
projektbeskrivning, en komplex process. Det är därför angeläget att söka former för att
minimera de risker som kan föreligga i utvecklingsarbetet.
Utvecklingsriskerna kan grupperas i följande utskiljbara kategorier;
- Tidförskjutningsrisker
Även om systematik och teknologi för att konstruera en struktur för taligenkänning är etablerad
finns risk att komplikationer av praktisk art uppstår som gör att projektets tidplan påverkas.
Tidsåtgången relatera naturligtvis också till de disponibla medel som föreligger i projektet och till
de arbetsinsatser som görs av var och en av de i projektet ingående aktörerna.
- Kostnadsförskjutningsrisker
Projektkostnaden har beräknats utifrån de bedömningar som i planeringsskedet är möjliga att
göra beträffande tidsåtgång och resursinsats för projektets genomförande. Fördyringar kan uppstå
för den händelse att idag okända komplikationer tillstöter eller om de grundläggande
förutsättningarna – exempelvis intressentgruppens sammansättning och åtaganden – förändras på
ett mer påtagligt sätt..
- Kvalitetsrisker
Också i ett läge där projektet genomförs inom angiven tidsplan och kostnadsram föreligger en
risk att stipulerade kvalitetsparametrar inte visar sig möjliga att uppnå fullt ut.
- Kompetensförlust på grund av avhopp
Projektplanen har utarbetats så långt som möjligt för att olika kompetenser utnyttjas i de separata
delprojekten. Genom detta kan en eventuell partners avhopp isoleras till ett delprojekt.
5.1 Riskhantering
Följande redovisade förhållanden och åtgärder är avsedda att säkerställa att projektet kan
fullföljas i enlighet med redovisad plan.
5.1.1 Projektgruppens sammansättning
Sammansättning av projektaktörer säkerställer kravet på en både djup och bred teoretisk och
praktisk erfarenhet inom det aktuella verksamhetsområdet. Samtliga aktörer har dessutom en
betydande erfarenhet av driva projekt av stor komplexitet.
De i projektet ingående parterna har, både var och en för sig och tillsammans, ett intresse av att
projektet genomförs framgångsrikt.
Den bakomliggande kompetens- och kunskapsbank som existerar i de i projektet medverkande
företagen ger en betydande stadga i de olika utvecklingsfaserna. Så till exempel kan SVT avsätta
ekonomiska och personella resurser i den nödvändiga testverksamheten
5.1.2 Projektstruktur
Den föreslagna projektmodellen innebär att utveckling sker parallellt av en generell struktur för
svensk taligenkänning och av en begränsad värdedemonstrator inom den språkliga domän som
relaterar till väderpresentation. Upplägget gör det möjligt att tidigt säkerställa arbetsform och
tekniktillämpning i det samlade projektet.
Avtappningen i ett delmål fungera som en ”hållplats” för projektet där utvärdering sker av
funktionalitet och kvalitet. Nödvändiga justeringar kan, om behov föreligger snabbt
implementeras för att säkerställa projektets åsyftade slutresultat.
5.1.3 Projektorganisation
Projektorganisationens uppbyggnad garanterar full transparens. Samtliga i projektet ingående
parter har tillsammans med användarrepresentanter goda möjligheter att följa och aktivt påverka
projektarbetet samt att tillse att det följer uppgjorda planer, fastställda ekonomiska ramar och
redovisad tidsdisposition. Projektorganisationen, som till sin form är väl beprövad, utgör en säker
grundval för fortlöpande riskminimering.
6 Upphovsrätt
Upphovsrätten till projektets resultat kommer att beskrivas i detalj då för projektets start. Man
kommer då att så långs som möjligt följa de principer som används i till exempel EU projekt.
Målsättningen är att den utvecklade infrastrukturen skall göras tillgänglig som en nationell resurs.
Den kunskap och infrastruktur som tillförs från respektive partner är bakgrundskunskap och
behandlas enligt de principer som respektive part anger.
De i projektet deltagande parterna förbehåller sig rätten till eget upphovsrättsligt skyddat
material.