Ett direkttextningssystem för SVT 1 Beskrivning av projekt 1.1 Bakgrund Sveriges Television (SVT) skall i enlighet med nu gällande sändningstillstånd tillse att minst 65% av programmen i företagets huvudkanaler (SVT1 och SVT2) är textade. Textning av TV-program sker för att personer med hörselnedsättning skall kunna ta del av SVT:s programutbud. Det beräknas att drygt 1 miljoner svenska har hörselskador eller hörselnedsättning av sådan art att textning är nödvändigt för att uppnå full begriplighet. Frågan om programtextning i TV har i olika omgångar uppmärksammats av riksdagen och riksdagens kulturutskott. Ett flertal motioner med krav på bättre textservice har behandlats och textningen av SVT:s program utgör en prioriterad fråga för den nu sittande statliga public service-utredningen. SVT arbetar aktivt för att utveckla volymen textade program, med målsättning att så snart tekniken gör det möjligt, närma oss hundraprocentig texning. Det finns också förväntningar om ökade krav i ett nytt sändningstillstånd. Men för att nå sådana höga mål krävs dock en ny teknisk lösning för textproduktion vid direktsända program. Av dessa skäl är det viktigt att ett nytt verktyg för direkttextning blir tillgängligt de närmaste åren. Utan ett sådant kommer SVT inte att nå upp till det långsiktiga målet om full textning. Den nu använda arbetsmetoden utvecklades på 1980-talet och bygger på snabbinskrivning av text via sk Velotype-tangentbord. Manuell snabbtextning är mycket krävande och någon utveckling sker inte längre av de tekniska hjälpmedel som används. I några länder har därför en övergång skett till automatisk taligenkänning för hantering av direkttextning. Den nya tekniken har visat sig vara en bra metod. Man använder då i första hand så kallade ”skuggtalare” som formulerar och uttalar den text som skall visas. Man kan därför göra taligenkänningen talaranpassad. Automatisk taligenkänning förutsätter emellertid att en språklig infrastruktur finns tillgänglig. Av naturliga skäl har skapandet av denna grundval främst inriktats på ett begränsat antal världsspråk. Taligenkänningstekniken är därför idag enbart förbehållen TV-företag som verkar inom stora språkområden, exempelvis BBC. Även om teknik och metoder idag alltså föreligger för programtextning via automatisk taligenkänning utgör bristen på infrastruktur för svenska ett avgörande hinder för att ta i bruk en modern teknik. SVT tog under 2006 initiativ till en offentlig upphandling i syfte att låta utveckla en taligenkänningsmjukvara på svenska. Upphandlingen fick dock avbrytas eftersom ingen anbudslämnare kunde infria de uppställda kraven eller ansåg det vara av intresse att utveckla den nödvändiga grundstrukturen för ett så litet språk som det svenska. Det är mot bakgrund av ovanstående förhållanden som här deltagande parter tagit initiativ till ett projekt med mål att utveckla en svensk infrastruktur för taligenkänning. 1.2 Mångsidig användbarhet Även om det ursprungliga behovet emanerar från ett intresse av att utveckla direkttextningen av TV-program utgör detta enbart en av en mängd möjliga tillämpningar för en svensk taligenkänningsinfrastruktur. Ett stort antal intressen och behov både inom den offentliga sektorn och i det privata näringslivet skulle kunna tillgodoses när talat språk i näst intill realtid kan överföras till skriven text. Genom att koppla olika applikationer till en lämpligt utformad språkdatabas kan en stor mångsidighet i funktionalitet och användande uppnås. Framtagandet av en infrastruktur för svensk taligenkänning skall därför inte betraktas som ett specifikt intresse för personer med hörselskador eller hörselnedsättning, eller för användning inom televisionen, utan bör framför allt ses en vital nationell angelägenhet med stor näringspolitisk och kulturell räckvidd. Utvecklingen av den taligenkänningsteknik som idag efterfrågas av SVT möjliggör tillämpningar inom andra områden, som exempelvis textning av befintliga arkiv och indexering och sökning i talmaterial och talarberoende dikteringstillämpningar. Detta projekt lägger därutöver en viktig grund för fortsatt utveckling mot framtida, mer avancerade tillämpningar. Bland dessa kan nämnas direkttextning utan ”skuggtalare” eller talaroberoende dikteringstjänster. I figur 1 nedan beskrivs närliggande tillämpningar inom storvokabulärtaligenkänning för naturligt tal och deras relationer av svårighetsgrad/teknikhöjd. SVT:s talarberoende tekniska målsättning i dagsläget är markerad med tjock ram där ”textning” innefattar både igenkänning av skuggtalare och rättning av igenkänningsresultatet. Figur 1. Illustration av olika närliggande taligenkänningstillämpningar. 1.3 Behov och prestanda Den efterfrågade taligenkänningsmjukvaran skall ha tillräckliga prestanda för att klara talarberoende taligenkänning av kontinuerligt talat språk. SVT:s behov av taligenkänning skiljer sig från merparten av andra tillämpningar eftersom stora krav ställs avseende talhastighet och igenkänningsnoggrannhet. Vid erfarenheter dragna från röststyrd direkttextning i andra länder och vid faktiska försök på SVT med dagens befintliga svenska taligenkänningssystem har en miniminivå hittats för träffsäkerhet och igenkänningshastighet. Denna nivå är satt så att taligenkänning ska vara praktiskt användbar vid storskalig direkttextning med bibehållen kvalitet motsvarande dagens manuella Velotype-textning. Ordigenkänningsnivån skall med marginal överstiga 90 % i genomsnitt för ett 30 minuters återdikterat tv-program av nyhetskaraktär. Igenkänningstiden per ord skall i genomsnitt vara under tre sekunder och får aldrig överstiga fyra sekunder. En igenkänningsmotor som designas för att klara SVT:s behov skiljer sig därmed från merparten av de system som idag finns på marknaden för att klara detta nästan-realtidskrav med stor ordlista. I första fasen skall systemet klara att texta väderpresentationer. Därefter sker en utvärdering av uppnått resultat och beslut fattas om projektets fortsättande in i fas två. Den andra fasen innebär en breddning av systemets tillämpningsområden med vidare utveckling till nya språkliga domäner. Detta för att nå fram till det slutliga målet där taligenkänningen måste hålla sådan kvalitet att tv-program av allmän karaktär kan textas. Försök på SVT har visat att det är mycket svårt att karaktärisera program så att de faller inom väl avgränsade domäner. Basordlistan måste därför vara omfattande. SVT:s önskemål är att den motsvarar i storlek Svenska akademins ordlista samt även innehåller egennamn och ortsnamn i den omfattning som vanligen förekommer i svenskt tal. Ordlistans storlek skall i ringa omfattning påverka igenkänningstid och igenkänningsnivå. Ett ord som saknas i ordlistan skall i möjligaste mån inte feltolkas. Befintlig taligenkänningsteknik tolkar oftast saknade ord så att hela den omkringliggande meningen blir förvanskad. SVT:s önskemål är att om taligenkänningssannolikheten ligger under ett givet tröskelvärde skall en felaktig tolkning inte göras utan textaren skall istället uppmärksammas så att manuell korrigering kan göras. De försökspersoner som SVT har använt (både utbildade direkttextare och andra) har kunnat lära sig att utföra denna korrigering samtidigt som man fortsätter att återdiktera pågående program. Detta förutsatt att igenkänningsnivån är tillräcklig så att korrigering maximalt behöver göras några gånger i minuten. Utmärkande för ord som behöver korrigeras är enligt SVT:s erfarenheter att de under pågående sändning kommer att återupprepas ett antal gånger, men att de senare inte kommer att förekomma i tv-program på lång tid. För att på lång sikt garantera systemets användbarhet och prestanda krävs ett kontinuerligt arbete med systemunderhåll och uppdatering av tal- och språkdata. Detta arbetsområde, som skulle kunna beskrivas som en fas tre, omfattas inte av detta projekt. Delprojektets syfte är att studera rimligheten i ovan ställda krav och eventuella alternativa lösningar för att slutresultatet på textningsservicen till tittarna håller motsvarande kvalitet trots att igenkänningsnivå och –tid från taligenkänningsmotorn understiger ovanstående gränsvärden. Sammanfattningsvis skall taligenkänningsmjukvaran konstrueras med standardiserade protokoll för att kunna integreras i olika systembyggnader. Systemets egenskaper skall motsvara högt ställda krav avseende parametrarna; - Träffsäkerhet (Andel ord som är korrekt tolkade.) - Realtidsfunktionalitet (Minimal tid mellan ljudregistrering och textvisning.) - Ordhantering (Möjlighet till lärande kompletteringsfunktion.) - Integrerbarhet (Möjlighet till systemintegrering.) 2 Projektplan för ett direkttextningssystem för SVT Projektet är ett första steg för att skapa en talstyrd textningsservice. För att skaffa erfarenhet har projektet konstruerats med en s.k. parallell avtappning, där ett delmål utgörs av ett system för direkttextning av väderleksrapporter. Projektet delas upp i ett antal utvecklingssteg som behandlar brukarnas behov, en infrastruktur för tal- och spåkdata, utveckling av taligenkännare, samt en integrering med SVT:s textsystem. För att den slutliga tillämpningen på bästa sätt skall tillgodose de intressen och önskemål som föreligger från den del av TV-publiken som har behov av kontinuerlig textning av pågående program skapas en referenspanel där de hörselskadades intresseorganisationer finns representerade. Projektplanens olika delprojekt beskrivs nedan. 2.1 Brukare- och användarbehov Detta delprojekt syftar till att säkra att projektets resultat verkligen motsvarar vad användarna vill ha samt att hålla brukarorganisationer informerade om projektets framskridande. Delprojektet består av tre delar: 1) Specificering av brukarnas behov i form av prestanda och nivåer hos olika parametrar i systemet, med hjälp av befintlig kunskap och eventuellt nya brukarundersökningar, om så behövs. 2) Tester och utvärderingar med brukare enligt vedertagna metoder vid lämpliga tillfällen. 3) Upprättande av en referensgrupp med representanter för olika brukargrupper. Fortlöpande dialog och informationsutbyte med referensgruppen under projektets hela gång. 2.2 Infrastruktur 2.2.1 Taldata Talkorpora, det vill säga inspelade taldatabaser, där man märkt upp vad som sagts, eventuellt kompletterat med övrig information, till exempel beträffande störningar, är grundläggande för att modellera taligenkänningen. Erfarenheten visar att ju bättre databasen stämmer med den slutliga användningen och användarna desto bättre blir resultatet. I ett första steg gäller det att ta reda på vilka befintliga taldatabaser som kan vara relevanta för projektet. Avsikten är att i första hand bygga upp en allmän taldatabas med läst tal, eftersom läst tal både är lättare att spela in och att märka upp. Vi bedömer att man behöver ca 100 olika talare. Emellertid är inspelningar från den tänkta användningen nödvändiga för att bäst kunna träna, testa och utvärdera olika igenkänningssystem. Dessa inspelningar kan även användas för att anpassa systemen till de tänkta skuggtalarna. Inspelningarna måste lyssnas igenom och märkas, annoteras. Detta är ett tidsödande arbete som tar ca 50 gånger den inspelade taltiden och för detta behöver man träna särskild personal som sedan får utföra märkningen. Eventuellt behöver befintliga metoder och redskap för märkning modifieras först. Taldata bör sedan analyseras och beskrivas, till exempel vad gäller täckning av olika akustisk-fonetiska enheter, ingående ord, ordens förekomstfrekvenser med mera. 2.2.2 Lexikon Den vokabulär som systemet ska klara av beskrivs i ett lexikon där en fonetisk transkription beskriver uttalet av orden. Ord som kan förväntas uttalas på olika sätt får flera transkriptioner. Även här gäller, liksom för taldata, att ta reda på vilka befintliga lexika som finns. Dessa måste under alla förhållanden kompletteras med ytterligare ord med hänsyn tagen till den slutliga användningen. Ordens ortografi och transkriptioner ska vara standardiserade. Speciellt får man ta hänsyn till den höga frekvensen av utländska ord i vissa domäner. Dessa ställer naturligtvis särskilda krav på transkriptionen och den akustiska modelleringen. För nyhetsprogram tillkommer dagligen nya ord och begrepp som man måste kunna hantera vid textningen. Ett sätt att göra det kan vara att dagligen gå igenom nyhetstexter på Internet och leta efter nya ord. De vanligaste och viktigaste får sorteras ut via en filtrering som förmodligen måste övervakas manuellt. Orden transkriberas sedan fonetiskt och läggs till igenkänningslexikonet. För detta måste en lämplig mjukvara utvecklas. Lexikonet analyseras med avseende på frekvenser och täckningsgrader för olika domäner. Idag befintliga redskap klarar förmodligen det mesta av lexikonhanteringen, men till exempel den inkrementella utökningen av vokabulären kommer att kräva en nyutveckling. 2.2.3 Språkdata De statistiska språkmodeller som utnyttjas av taligenkänningsmotorerna beräknas på texter som företrädesvis ansluter sig så nära som möjligt till den tänkta tillämpningen. Även här gäller att ta reda på vilka befintliga språkdata som kan vara användbara och att även utnyttja de specifika data som spelas in med tanke på den slutliga användningen. Ingångsdata till beräkningarna är dels rena, relevanta textdata, dels det ortografiskt transkriberade tal man får vid annoteringen av taldata. Texterna skall tokeniseras, normaliseras och standardiseras vad gäller stavning, gemena/versaler, förkortningar och akronymer. Rena textdata, till exempel från SVT:s textsidor om väderleksrapporter kan användas. Ännu bättre är att använda utskrifter från direkttextningen eftersom återspeglar hur skuggtalaren kommer att uttrycka sig. Texterna analyseras med avseende på exempelvis ordfrekvenser, n-gram, perplexitet och täckningsgrad. N-gram är en statistisk beskrivning av språket som anger hur sannolika olika ord är beroende på olika antal föregående ord. Perplexitet beskriver hur svårt ett språk är. Grovt sett anger det hur många ord som kan följa på ett givet ord i språket. En siffersekvens har lägre perplexitet än en nyhetstext. Täckningsgraden beskriver hur bra språkmodellen täcker all observerade yttranden. För att göra textningen generellt användbar måste språkmodellen utvecklas. Det kan göras så att man lägger till nya domäner en i taget, exempelvis nyheter, sport, kultur och så vidare. Inför textning av en given programtyp aktiverar man motsvarande språkmodell samtidigt som man väljer rätt akustisk modell för den aktuella skuggtalaren. I ett längre perspektiv kan man tänka sig att bygga upp mer omfattande språkmodeller som kan hantera flera domäner. Ett slutmål kan vara att ha enbart en generell språkmodell. Även språkmodellen bör modifieras inkrementellt med hänsyn till nytillkomna ord enligt ovan under avsnittet om lexikon. 2.3 Taligenkännare Detta arbetspaket omfattar utveckling av taligenkänningssystem för SVTs ändamål samt integrering av de modeller och resultat, som tas fram i flera av de övriga arbetspaketen. Avsikten är att den infrastuktur, data och modeller som tas fram följer öppna standarder och format så att de nedan i 2.3.1 och 2.3.2 kan anpassas till ett eller flera taligenkänningssystem som i tur utvecklas för SVTs behov i 2.3.3. 2.3.1 Akustiska modeller Genom datadrivna processer som akustisk träning och adaption görs en sammanvägning av talkorpora, uttalslexika och övrig fonetisk språkspecifik kunskap. Resultatet blir modeller på akustisk-fonetisk nivå för att hantera olika talare, talstilar och svenska dialekter. Dessa akustiska modeller utgör en viktig komponent till taligenkännaren som sedan kan kombineras med modeller med kunskap på språklig/syntaktisk nivå. 2.3.2 Språkmodeller Anpassning av de statistiska språkmodellerna behöver göras för att passa ett specifikt igenkänningssystem formatmässigt. Målsättningen bör vara att utveckla ett flexibelt gränssnitt så att därefter nya språkmodeller på standardformat kan automatkonverteras utan specifikt anpassningsarbete. 2.3.3 Igenkänningsmotor Infrastrukturella resurser, modeller och standarder är gemensamma och separeras från enskild parts kod/mjukvara. SVT-anpassade akustiska modeller, uttalsmodeller och språkmodeller integreras i detta arbetspaket till s.k. komposita modeller så att hela taligenkänningskedjan – från tal till text – kan verifieras i realtid (online). I syfte att utvärdera prestanda hos modellerna bör också ett offline-system upprättas som ”baseline”, mot vilket test-simuleringar kan köras. Arbetet omfattar dessutom eventuell justering av s.k. frontend-processning (signalbehandling, särdragsextraktion ur talsignalen), optimering av de komposita modellerna för att förbättra prestanda, samt andra ev. anpassningar av taligenkännaren för textningsapplikationen (ex. anpassning av utmatningsformat etc.). För de igenkänningssystem som SVT-modellerna integreras i, skall sedan utvärdering göras för att utvärdera modellernas kvalitet och individuella egenskaper. 2.4 Integrering i SVTs prototyp 2.4.1 Uppbyggnad av system Integrering i SVTs prototyp Mjukvara för undertextning innefattande även direkttextning finns kommersiellt tillgänglig från flertalet leverantörer. SVT använder idag Softel Swift i kombination med qwerty- samt Velotype-tangentbord. Swift har även visst stöd för att använda taligenkänning som inmatningsmetod. Dels genom att taligenkänningsmotorn integrerar med Windows och emulerar ett tangentbord. Utmatning sker då där markören är placerad, i det här fallet i Swift applikationen. Dels genom ett API där utdata från taligenkänningen skickas direkt in i Swift. SVT har inte för avsikt att nyutveckla ett textningssystem utan att integrera dagens och eventuella framtida textningssystem med igenkänningsmotorn. Detta delprojekt ska utreda om någon av de befintliga gränssnittspecifiktionerna (SAPI m.fl.) stödjer de krav SVT har på integration mellan textningssystem och igenkänningsmotor. I det fall att något sådant API inte kan hittas skall delprojektet föreslå hur ett sådant gränssnitt skall utformas. Målet vid utvecklingen av väderprototypen är inte att fullständigt integrera Swift, då detta får ses som ett allt för omfattande arbete som även involverar en extern leverantör. En enklare prototyp som visar möjligheterna med tvåvägs interaktion mellan textningssystem och taligenkänningmotor för utbyte av tolkad text och återföring av korrigeringar bör utvecklas och utvärderas. Denna prototyp skall även ge möjlighet till dagligt underhåll av lexikon och språkmodeller baserad på aktuella nyhetstexter. 3 Tidsplan och resursbehov I nedanstående schema visas tidplanen för projektets 36 månader. Genom fas 1 (18 mån) läggs grunden för slutförandet och den tekniska genomförbarheten för projektmålen verifieras. Därefter tar fas 2 vid som fortgår 18 månader fram till färdigt direkttextningssystem redo för driftsättning. [Infällda tiderär tentativa förslag.] Tidplan och faser Aktiviteter Fas 2 (Domän SVT) Fas 1 (Väderpilot) Uppstart Bemanning Ansvarsområden Verktyg 2.2 Infrastruktur 2.2.1 Taldata 2.2.2 Lexikon 2.2.3 Språkdata 2.3 Taligenkännare 2.3.1 Akustiska modeller 2.3.2 Språkmodeller 2.3.4 Igenkänningsmotor 2.4 Integrering I SVT's Miljö Systemuppbyggnad 2.4.2 Uppdateringprogram 2.4.3 Träning av textare 2.4.4 Tester & utvärdering Beslutspunkt Fas 2 Produktifiering Dokumentation, Support, Utbildning 18 mån 36 mån Tid Figur 2. Tidplan och projektfaser Uppskattat resursbehov för varje delprojekt Delprojekt Projektledning Arbetsbeskrivning Tre år halvtid Uppskattad kostnad kSEK 4800 2.1 Brukare och användarbehov 2.2.1 Taldata 500 En dialekt för generell igenkännare (inspelning och uppmärkning) 4000 100 talare läst tal (100 timmar) 20 timmar skuggtalare (inspelning och uppmärkning) 2.2.2 Lexikon 2000 2.2.3 Språkdata 2000 2.3.1 Akustiska modeller 1500 2.3.2 Språkmodeller 1500 2.3.3 Taligenkännare 4000 2.4 Integrering i prototyp 500 4 Organisation Projektet har en ledning och en styrgrupp. Ledningens uppgift är att leda projektet och hantera alla de frågor som uppstår under arbetets gång. En styrgrupp representerar alla intressenter som deltar i projektet. 4.1 Styrgrupp Styrgruppen har övergripande ansvar för projektet. Styrgruppen representerar samtliga intressenter och har en sammankallande ordförande. Styrgruppen träffas ett på förhand överenskommet antal gånger om året eller vid behov. 4.2 Ledning Ledningens ansvar är se till att projektet löper enligt den uppsatta planen och består av en projektledare och en ledningsgrupp. Projektledaren har huvudansvaret för projektets utförande. Ledningsgruppen består av projektledaren och projektledarna för varje delprojekt. Ledningsgruppen sammanträffas regelbundet. 4.3 Delprojekt Projektet delas upp i ett antal delprojekt. Varje delprojekt har en projektledare. 4.4 Referensgrupp En referensgrupp bildas under året för att inhämta synpunkter och behov från användarna. 4.5 Beskrivning av deltagare 4.5.1 Hjälpmedelsinstitutet Hjälpmedelsinstitutet, tidigare Handikappinstitutet, bildat 1968, är ett nationellt kunskapscentrum inom området hjälpmedel och tillgänglighet för människor med funktionsnedsättning. Institutet arbetar för full delaktighet och jämlikhet genom att medverka till bra och säkra hjälpmedel, en effektiv hjälpmedelsverksamhet och ett tillgängligt samhälle. Hjälpmedelsinstitutets verksamhet omfattar forskning och utveckling, utredningsverksamhet, provning och stöd vid upphandling av hjälpmedel, utbildning och kompetensutveckling, information och kommunikation samt internationell verksamhet. På institutet arbetar cirka 90 personer. Hjälpmedelsinstitutets huvudmän är staten och Sveriges Kommuner och Landsting. Institutet har sedan många år tillbaka ett nära samarbete med avdelningen för tal, musik och hörsel på KTH rörande kommunikation för personer med funktionsnedsättning. Institutet var också ledande i det projekt som tog fram och introducerade de svenska Velotype-tangentborden, inklusive utbildning av operatörer, för manuell snabbtextning som fortfarande används av SVT för direkttextning. 4.5.2 IBM Svenska AB IBM är ett av världens ledande företag inom informationsbehandling. Med fler än 355 000 medarbetare och tusentals teknik- och affärspartner över hela världen är vi ett globalt integrerat företag. IBM Svenska AB grundades år 1928 och har i dag ca 3 300 anställda i Sverige. På ett hundratal orter där vi inte själva har kontor representeras IBM av våra samarbetspartner, certifierade IBM Business Partner, som säljer våra produkter och lösningar. Under mer än 50 år har IBM varit tongivande i att driva datorutvecklingen framåt och satsar varje år 5-6 miljarder dollar på forskning och utveckling. Över 3 000 forskare arbetar i IBM:s grundforskningslaboratorier i USA, Kina, Israel, Schweiz, Japan och Indien. För IBM är tillgänglighet viktigt därför skapade IBM år 2003 ett antal Tillgänglighetscentra ” Human Ability and Accessibility Centers ” i USA, Europa, Japan, Brasilien, Kina och Australien. Dessa centers hjälper IBM att se till att våra produkter och tjänster är tillgängliga för personer med funktionsnedsättning. Centren verkar för en gemensam standard, applicerar forskningsteknologier, skapar industribaserade lösningar och informerar om tillgänglighet. IBM:s Tillgänglighetscenter har en direkt koppling till IBM:s forskningscenter runt om i världen. Ny teknologi testas tillsammans med partners och kunder. IBM vill gå längre än standard och regelverk för att förbättra integrationen med informationsteknologi. IBM har varit en ledare inom utvecklingen av taligenkänning i 40 år. IBM:s produkt för taligenkänning, Automated Speech Recognition (ASR), heter ViaVoice och används i flera applikationer däribland ViaScribe. ViaScribe används av bl.a. universitet för att i realtid omvandla föreläsarens tal till text som presenteras på en storbildskäm och kan läsas av hörselskadade elever. ViaScribe utvecklas tillsammans med en organisation som heter Liberated Learning Consortium. ViaVoice används även i ett undertextsystem som utvecklats av Read Bee Media för BBC i England samt i produkten Protitle Live som utvecklats av Ninsight för ett franskt TV-bolag. 4.5.3 KTH Avdelningen för tal, musik och hörsel, skolan för datavetenskap och kommunikation, KTH, har varit en internationellt erkänd forskningsgrupp i mer än trettio år. Talgruppen engagerar omkring 25 seniorer och doktorander. Arbetet innefattar grundlägganden forskning inom talkommunikation, talsyntes och taligenkänning och flera talteknologiska områden som dialogsystem and hjälpmedel för kommunikationshindrade. Skapandet av en infrastruktur för talteknologi kommer att bli en viktig grund för forskningen. Huvudinriktningen är att förstå hur talad mänsklig kommunikation sker och hur denna kunskap skall kunna modelleras i människa-maskin interaktion. Forskningen kring multimodala dialogsystem är tvärveteskaplig och kombinerar talteknologi med lingvistik, kognition, psykologi och datavetenskap. Gruppen deltar i ett flertal EU-projekt och är också representerad i styrelsen för International Speech Communication Association (ISCA) board and the European Language and Speech Network (ELSNET) board. CTT (Centre for Speech Technology) är placerad vid institutionen och är organiserad som en plattform för samarbete mellan industri och akademisk forskning. CTT tillhörde första generationens kompetenscentra som finansierades av VINNOVA och är nu finansierad genom enskilda projekt. Talgruppens forskning kan grupperas i föjande huvudinriktningar: Metoder för automatisk talförståelse, Principer för talarkarrakäristik, Talproduktion för multimodal talsyntes, Språkteknologi för interaktiva dialogsystem, Skapandet av en infrastruktur för talteknologi, Talteknologiska kommunikationshjälpmedel. 4.5.4 Sveriges Television AB SVT är ett oberoende medieföretag i allmänhetens tjänst. Företaget utgör ett aktiebolag och ägs av en stiftelse. SVT sänder program i 7 TV-kanaler och har en omfattande verksamhet på webben. SVT har en årlig omsättning på ca 4 miljarder kronor. Företaget bedriver verksamhet på 30 orter runt om i landet och har 3.000 anställda. Verksamheten som finansieras via TV-avgifter styrs via ett av riksdagen fastställt flerårigt sändningstillstånd där ramarna för verksamheten anges. Årligen fattar riksdagen även beslut om företagets finansieringsvillkor där bland annat TV-avgiftens storlek regleras. 2007 sändes 81 av de 100 mest sedda svenska TV-programmen i någon av SVT:s kanaler. Sveriges Television är enligt nu gällande sändningstillstånd skyldiga att texta 65 procent av programmen i företagets huvudkanaler SVT1 och SVT2. Detta uppdrag infrias. SVT:s ambition är dock att snarast möjligt kunna erbjuda undertextning i huvudkanalernas samtliga program där tal förekommer. 4.5.5 TeliaSonera TeliaSonera är det ledande telekommunikationsföretaget i Norden och Baltikum med starka positioner internationellt inom mobil kommunikation i Eurasien, inklusive Turkiet och Ryssland. I slutet av 2006 lanserade TeliaSonera framgångsrikt mobiltjänster i Spanien. TeliaSonera erbjuder pålitliga, innovativa och användarvänliga tjänster för överföring och paketering av ljud, bild, data, information, transaktioner och underhållning. TeliaSonera ser enkelhet och service som viktiga verktyg för att skapa långsiktig, hållbar tillväxt och värde för sina kunder och aktieägare. TeliaSonera siktar på att genom sina internationella affärsområden tillvarata den starka tillväxten inom mobilitets- och bredbandstjänster och integrerade företagstjänster och den höga tillväxten på marknaderna österut. TeliaSonera har lång och gedigen erfarenhet av tal- och språkteknologiområdet och har utvecklat och lanserat flera tjänster inom detta område. TeliaSonera har deltagit i åtskilliga nationella och internationella forskningsprojekt och har bl.a. deltagit som en av de största intressenterna i Centrum för Talteknologi vid KTH och har bidragit till instiftandet av en professur i talteknologi med inriktning på svenska språket vid denna institution. 4.5.6 UR Sveriges Utbildningsradio AB (UR) är ett av tre programbolag inom public service. Verksamheten finansieras i huvudsak av tv-avgiftsmedel. UR:s uppdrag är att producera och distribuera utbildningsprogram för användning i förskola, ungdomsskola, högskola och vuxenutbildning. UR har även ett folbildningsansvar och ska bidra till att väcka intresse för bildning och kunskap. UR arbetar flermedialt med produktion av tv- och radioprogram och webb. Även text-tv och trycksaker fyller viktiga pedagogiska uppgifter. UR:s nuvarande sändningstillstånd löper t.o.m. 2009. UR förfogar över 4,75 % av de tv-avgiftsmedel som fördelas till programbolagen. UR:s sändningsvolym i tv uppgick under 2006 till 1739 timmar och i radio till 584 timmar. UR:s utbud används i stor omfattning. I grundskolan använde 74 % av alla lärare bild- och ljudmaterial från UR under 2006. Utlåningen av UR-program från mediecentralerna uppgick till drygt 910.000 program. UR:s uppdrag avser även språkliga och etniska minoriteter samt funktionshindrade. De resurser som UR avsätter för funktionshindersområdet ska öka under tillståndsperioden särskilt i fråga om åtgärder för ökad tillgänglighet och förbättrad hörbarhet. Alla URs program som riktar sig till en publik över tio år textas med såväl öppen som dold text samt översättningar av utländska språk. Under 2006 uppgick andelen svensktextade program till närmare 80 % av det totala tv-utbudet. 4.5.7 Veridict AB Veridict AB är ett svenskt högteknologiföretag med specialisering inom talteknologi och automatisk taligenkänning. Företaget är forskningsavknoppning från KTH och grundades 2006 efter mångårig forskning vid Centrum för Talteknologi vid KTH. Veridict utvecklar och säljer idag avancerad taligenkänningsteknik för professionellt bruk och krävande tillämpningsområden. Idag har Veridict samarbeten med ett antal större börsnoterade svenska bolag och organisationer. Därtill finns fortsatta starka kopplingar till forskningen vid KTH. Veridict har med sin teknologi erhållit flera utmärkelser, och har bl.a. vunnit första pris i affärstävlingen Venture Cup 2006 och erhållit statliga VINNOVA´s och Energimyndigheten innovationpris VINN NU år 2006. Företaget har sitt huvudkontor beläget i WennerGren-Center i Stockholm. Veridict befinner sig i dag i ett starkt tillväxtskede och expanderar för närvarande verksamheten i Stockholm. 5 Projektrisker Utvecklingen av en struktur för svensk taligenkänning är, som framgår av föreliggande projektbeskrivning, en komplex process. Det är därför angeläget att söka former för att minimera de risker som kan föreligga i utvecklingsarbetet. Utvecklingsriskerna kan grupperas i följande utskiljbara kategorier; - Tidförskjutningsrisker Även om systematik och teknologi för att konstruera en struktur för taligenkänning är etablerad finns risk att komplikationer av praktisk art uppstår som gör att projektets tidplan påverkas. Tidsåtgången relatera naturligtvis också till de disponibla medel som föreligger i projektet och till de arbetsinsatser som görs av var och en av de i projektet ingående aktörerna. - Kostnadsförskjutningsrisker Projektkostnaden har beräknats utifrån de bedömningar som i planeringsskedet är möjliga att göra beträffande tidsåtgång och resursinsats för projektets genomförande. Fördyringar kan uppstå för den händelse att idag okända komplikationer tillstöter eller om de grundläggande förutsättningarna – exempelvis intressentgruppens sammansättning och åtaganden – förändras på ett mer påtagligt sätt.. - Kvalitetsrisker Också i ett läge där projektet genomförs inom angiven tidsplan och kostnadsram föreligger en risk att stipulerade kvalitetsparametrar inte visar sig möjliga att uppnå fullt ut. - Kompetensförlust på grund av avhopp Projektplanen har utarbetats så långt som möjligt för att olika kompetenser utnyttjas i de separata delprojekten. Genom detta kan en eventuell partners avhopp isoleras till ett delprojekt. 5.1 Riskhantering Följande redovisade förhållanden och åtgärder är avsedda att säkerställa att projektet kan fullföljas i enlighet med redovisad plan. 5.1.1 Projektgruppens sammansättning Sammansättning av projektaktörer säkerställer kravet på en både djup och bred teoretisk och praktisk erfarenhet inom det aktuella verksamhetsområdet. Samtliga aktörer har dessutom en betydande erfarenhet av driva projekt av stor komplexitet. De i projektet ingående parterna har, både var och en för sig och tillsammans, ett intresse av att projektet genomförs framgångsrikt. Den bakomliggande kompetens- och kunskapsbank som existerar i de i projektet medverkande företagen ger en betydande stadga i de olika utvecklingsfaserna. Så till exempel kan SVT avsätta ekonomiska och personella resurser i den nödvändiga testverksamheten 5.1.2 Projektstruktur Den föreslagna projektmodellen innebär att utveckling sker parallellt av en generell struktur för svensk taligenkänning och av en begränsad värdedemonstrator inom den språkliga domän som relaterar till väderpresentation. Upplägget gör det möjligt att tidigt säkerställa arbetsform och tekniktillämpning i det samlade projektet. Avtappningen i ett delmål fungera som en ”hållplats” för projektet där utvärdering sker av funktionalitet och kvalitet. Nödvändiga justeringar kan, om behov föreligger snabbt implementeras för att säkerställa projektets åsyftade slutresultat. 5.1.3 Projektorganisation Projektorganisationens uppbyggnad garanterar full transparens. Samtliga i projektet ingående parter har tillsammans med användarrepresentanter goda möjligheter att följa och aktivt påverka projektarbetet samt att tillse att det följer uppgjorda planer, fastställda ekonomiska ramar och redovisad tidsdisposition. Projektorganisationen, som till sin form är väl beprövad, utgör en säker grundval för fortlöpande riskminimering. 6 Upphovsrätt Upphovsrätten till projektets resultat kommer att beskrivas i detalj då för projektets start. Man kommer då att så långs som möjligt följa de principer som används i till exempel EU projekt. Målsättningen är att den utvecklade infrastrukturen skall göras tillgänglig som en nationell resurs. Den kunskap och infrastruktur som tillförs från respektive partner är bakgrundskunskap och behandlas enligt de principer som respektive part anger. De i projektet deltagande parterna förbehåller sig rätten till eget upphovsrättsligt skyddat material.