MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2010:21 ISSN 1654-0247 Musikwebb – En evaluering av webbtjänstens återvinningseffektivitet ANDRÉAS NORDH © Författaren Mångfaldigande och spridande av innehållet i denna uppsats – helt eller delvis – är förbjudet utan medgivande Svensk titel: Musikwebb – En återvinningseffektivitet Engelsk titel: Musikwebb – An evaluation of the retrieval effectiveness of the web service Författare: Andréas Nordh Kollegium: 2 Färdigställt: 2010 evaluering av webbtjänstens Handledare: Abstract: The aim of this thesis was to evaluate the music downloading service Musikwebb regarding its indexing and retrieval effectiveness. This was done by performing various kinds of search in the system. The outcome of these searches were then analysed according to the criteria specificity, precision, recall, exclusivity and authority control. The study showed that Musikwebb had several flaws regarding its retrieval effectiveness. The most prominent cases were the criteria exclusivity and specificity. Several of Musikwebb’s classes could be regarded as almost similar and the average number of songs in each class was over 50 000. As this study shows, having over 50 000 unique entries in a class results in problems regarding the effectiveness of the browsing technique. The developers of Musikwebb are recommended by the author to acquire their licensed material from All Music Guide, including the implementation of the All Music Guide classification system. Nyckelord: Musikwebb, Music Information Specificitetsprincipen, Precision, Auktoritetskontroll i Retrieval, Indexering, Recall, Exklusivitet, Förord Det tycks inte höra till vanligheterna att ett förord inkluderas i magisteruppsatser. Åtminstone verkar detta inte vara fallet för uppsatser skrivna vid institutionen för biblioteks- och informationsvetenskap på Högskolan i Borås. Min uppsats får därmed bli ett av få undantag då det finns några personer jag anser behöver tackas för dess hjälp under uppsatsarbetets gång; Sofia Larsson, Annika Larsson och Annika Nordh Jansson. Sofia Larsson vill jag tacka för att jag, som arbetsmaterial till den här uppsatsen, fritt kunnat använda den b-uppsats om Musikwebb vi tillsammans skrev under vårterminen 2007. Sofia har även kommit med en rad intressanta och värdefulla synpunkter under skrivandet av föreliggande magisteruppsats. Annika Larsson har aldrig studerat biblioteks- och informationsvetenskap. Däremot använder hon gärna, och ofta, musiktjänster på Internet. Detta har lett till att hon kunnat bidra med synpunkter inför mina undersökningar. Hon har även agerat bollplank ett antal gånger åt mig när jag stött på problem vid skrivandet av min magisteruppsats. Jag vill även passa på att be om ursäkt för alla de gånger jag frångått bollande av idéer och börjat diskutera indexering. Jag borde naturligtvis inte börjat diskutera indexering då jag är fullt medveten om att hon är helt ointresserad av detta, för mig, fascinerande ämne. Annika Nordh Jansson har aldrig studerat biblioteks- och informationsvetenskap. Hon använder sällan musiktjänster på Internet. Däremot är hon mycket bra på att hantera det svenska språket. Jag bad henne därför att korrekturläsa valda delar ur min uppsats med avseende på uppsatsens språkbruk. Att hon tackade ja till att korrekturläsa min uppsats innebär att uppsatsens innehåll blivit bättre, tydligare, och mer språkligt korrekt, än vad den redan var. Jag vill avsluta mitt förord med att rikta ett stort tack till er för att ni inte bara orkat lyssna och läsa utan även tagit er tid att kommentera innehållet i uppsatsen. Jag hade kunnat skriva uppsatsen helt utan er hjälp, men det skulle ha tagit längre tid och det skulle definitivt ha varit mycket tråkigare! Andréas Nordh Maj 2010 ii Innehållsförteckning FÖRORD.................................................................................................................................................... II INNEHÅLLSFÖRTECKNING ............................................................................................................. III 1. INLEDNING ........................................................................................................................................... 1 1.1 SYFTE OCH FRÅGESTÄLLNINGAR ........................................................................................................ 2 1.2 AVGRÄNSNINGAR ............................................................................................................................... 2 1.3 DISPOSITION ....................................................................................................................................... 2 2. BAKGRUND ........................................................................................................................................... 4 2.1 MUSIKWEBB ....................................................................................................................................... 4 2.2 ALLMUSIC/ALL MUSIC GUIDE ............................................................................................................ 6 2.3 SPOTIFY .............................................................................................................................................. 7 3. METOD ................................................................................................................................................. 10 3.1 OPTIMERINGSKRITERIER ................................................................................................................... 10 3.1.1 Specificitetsprincipen ............................................................................................................... 10 3.1.2 Precision och recall ................................................................................................................. 11 3.1.3 Exklusivitet ............................................................................................................................... 13 3.1.4 Auktoritetskontroll ................................................................................................................... 13 3.2 URVAL .............................................................................................................................................. 14 3.2.1. Genren audiobooks ................................................................................................................. 14 3.2.2. Sökordet Christmas ................................................................................................................. 14 3.2.3. Det totala beståndet ................................................................................................................ 15 3.2.4. Konsekvensen av att ej använda auktoritetskontroll ............................................................... 15 3.3 GENOMFÖRANDE .............................................................................................................................. 15 3.3.1. Genren audiobooks ................................................................................................................. 16 3.3.2. Sökordet Christmas ................................................................................................................. 16 3.3.3. Det totala beståndet ................................................................................................................ 16 3.3.4. Konsekvensen av att ej använda auktoritetskontroll ............................................................... 17 4. TIDIGARE FORSKNING ................................................................................................................... 18 4.1 MUSIKWEBB ..................................................................................................................................... 18 4.2 DIGITALA MUSIKTJÄNSTER ............................................................................................................... 19 4.3 INDEXERING AV MUSIK ..................................................................................................................... 20 5. TEORETISK BAKGRUND ................................................................................................................ 25 5.1 KATALOGISERINGSREGLER ............................................................................................................... 25 5.2 KONTROLLERADE VOKABULÄR ........................................................................................................ 25 5.3 UTTÖMMANDEGRAD ......................................................................................................................... 28 5.4 COLLABORATIVE FILTERING OCH SIMILARITY .................................................................................. 28 5.5 INDEXERINGSFEL .............................................................................................................................. 29 6. RESULTATREDOVISNING OCH ANALYS ................................................................................... 31 6.1 GENREN AUDIOBOOKS ...................................................................................................................... 31 6.2 SÖKORDET CHRISTMAS .................................................................................................................... 34 6.3 DET TOTALA BESTÅNDET .................................................................................................................. 36 6.4 KONSEKVENSEN AV ATT EJ ANVÄNDA AUKTORITETSKONTROLL ...................................................... 39 7. DISKUSSION OCH SLUTSATSER .................................................................................................. 42 8. SAMMANFATTNING......................................................................................................................... 46 KÄLLFÖRTECKNING........................................................................................................................... 48 BILAGA 1 – FIGUR- OCH TABELLFÖRTECKNING ...................................................................... 52 iii 1. Inledning Att via Internet lagligt kunna lyssna på, eller ladda ner, den musik man själv tycker om anser jag vara av godo. Dylika tjänster är i Sverige tämligen få. En av dessa är den tjänst som drivs för att folkbibliotekens användare ska kunna tillgodogöra sig musik via Internet lagligt, och utan extra kostnad. Den tjänsten heter Musikwebb och innehåller stora mängder musikinspelningar. Bibliotekens Internettjänster handlar givetvis inte enbart om tillgängliggörande av musikinspelningar. Det finns tjänster där man kan låna exempelvis ljudböcker och e-böcker. Så sent som idag, 24 mars 2010, meddelade företaget Ztorm att de, i samarbete med DBC1, lanserat en tjänst där de danska biblioteksanvändarna till och med kan låna pc-spel via Internet.2 För var och en av de tjänster som är till för att komplettera bibliotekens utbud måste man ha en sak i åtanke. I de fysiska biblioteken kan biblioteksanvändarna enkelt få hjälp av en bibliotekarie för att hitta det som efterfrågas. I de virtuella biblioteken är det svårare för användarna att kunna få hjälp av fysiska personer. Då krävs det istället att systemen är så bra uppbyggda som möjligt och att användarna själva kan klara av att finna vad som efterfrågas, givet att det finns i beståndet. Musikwebb innehåller ett stort antal musikinspelningar, men kan dessa betraktas vara lättillgängliga ur ett återvinningsperspektiv? Med termen lättillgänglig avser jag att användarna enkelt ska kunna hitta den typ av musik de efterfrågar givet att denna musik återfinns i Musikwebbs bestånd. Detta handlar exempelvis om ifall en artist brukat ett annat namn, eller stavning på sitt namn. Det handlar även om hur lätt det är att hitta liknande musik om man utgår från en viss artist eller genre användaren redan känner till och uppskattar. Kort sagt går vill jag undersöka huruvida det är lätt att hitta ljudinspelningar på Musikwebb det är hög sannolikhet för att man kommer att gilla, men som man inte redan känner till, om man utgår från en artist/grupp/genre man gillar. Begreppet återvinning är en översättning av termen information retrieval (IR). Detta begrepp inbegriper hur information representeras, lagras, organiseras och hur det går att få tillgång till informationen. Syftet med ett väl uppbyggt system är vanligtvis att användaren lätt ska kunna ta del av den information denne betraktar vara relevant vid sökningen.3 För att ett system skall kunna uppnå detta syfte är det av hög vikt att dokumenten i systemet har blivit indexerade på ett sådant sätt att de tilldelats nödvändiga kategoringseringstaggar. Tidigare har Musikwebb varit föremål för några studentuppsatser, men ingen av dessa har i någon större utsträckning undersökt hur väl Musikwebbs återvinningseffektivitet eller kategorisering fungerar. Därför är jag av åsikten att en uppsats som evaluerar Musikwebbs sökfunktioner, indexeringsval och indexeringsmöjligheter är behövlig. Föreliggande uppsats behandlar främst musiktjänsten Musikwebb samt kategorisering av musikinspelningar. Tanken är dock att uppsatsen ska vara så allmängiltig som möjligt och kunna användas inte enbart när det gäller musiktjänster utan även tjänster för exempelvis e-böcker eller spel. Jag har därför i så hög utsträckning jag ansett det vara möjligt gjort valet att bruka mig av exempel där annat än musik använts för att exemplifiera ett specifikt problem. 1 DBC hette tidigare Dansk BiblioteksCenter, men heter numera enbart DBC. Ztorm 2010. 3 Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier 1999, s. 1. 2 1 1.1 Syfte och frågeställningar Syftet med denna studie är att undersöka den ämneskategorisering som har utförts på ett urval av de ljudfiler Musikwebb tillhandahåller i sitt bestånd, samt Musikwebbs kontrollerade vokabulär. Syftet är även att studera på vilket sätt ämneskategoriseringen samt sökfunktionerna inverkar på återvinningseffektiviteten. Syftet är också att resonera om vilka förändringar jag anser skulle gynna Musikwebb vad gäller återvinningseffektivitet och ämneskategorisering. För att konkretisera syftet har jag valt följande frågeställningar: Om det finns några problem vad gäller ämneskategorisering i det urval jag gjort för mina testsökningar, vilka är då dessa problem? Om det utifrån mina testsökningar framkommer att det behövs förändringar av Musikwebbs kontrollerade vokabulär, vilka är då dessa förändringar jag anser behövs? 1.2 Avgränsningar Det hade varit fördelaktigt att ha haft möjlighet att genomföra en undersökning i Musikwebb där samtliga genrer undersöks spår efter spår. Av tids- och utrymmesskäl var en sådan undersökning tyvärr inte möjlig att genomföra. Av utrymmesskäl har jag också valt att starkt begränsa de testsökningar jag utfört för att åskådliggöra hur väl musikinspelningar indexerats på Musikwebb. Detta innebär givetvis att min studie ej säger något om hur resultatet skulle ha sett ut om jag valt att inkludera hela beståndet, eller andra delar av beståndet, i mitt urval. Det går alltså inte att dra några generella slutsatser om Musikwebb i helhet enbart utifrån denna uppsats slutsatser. En sak man bör ha i åtanke är att den studie av Musikwebb som utförts är baserad på en tidigare version av Musikwebb. Likaså är jämförelsen mellan Musikwebb och Spotify baserad på en tidigare version av Spotify. Vissa funktioner har därmed tillkommit hos de båda tjänsterna och andra funktioner har i gengäld försvunnit. Jag har därför valt att utförligt beskriva de funktioner som fanns tillgängliga vid den aktuella tidpunkten för studien. Man bör samtidigt ha i åtanke att Musikwebbs bestånd är under ständig förnyelse varvid mina testsökningar oavsett vilket skulle vara ögonblicksbilder. Även om man vid en ny studie skulle ha haft möjlighet att välja samma sorts urval jag själv gjort skulle resultatet troligen inte bli detsamma då innehållet i urvalet, med hög sannolikhet, skulle ha förändrats sedan min senaste testsökning. 1.3 Disposition I detta inledande avsnitt har forskningsproblemet presenterats. I avsnitt 2 presenteras tre webbtjänster med inriktning på musik. Främst är det musiktjänsten som står i fokus för uppsatsen som presenteras; Musikwebb. Jag har också valt att presentera två andra musiktjänster jag anser vara viktiga för uppsatsen; allmusic/All Music Guide samt Spotify. I avsnitt 3 beskrivs den metod vilken jag valt för att kunna besvara valda frågeställningar samt syfte för föreliggande magisteruppsats. I detta avsnitt står även att 2 läsa om de optimeringsverktyg jag valt för att analysera resultatet av de testsökningar som utförts. Utöver detta beskrivs även hur urvalet till testsökningarna skett samt eventuella problem mitt valda urval och metod kan medföra. I avsnitt 4 redogörs för tidigare uppsatser samt forskning jag ansett vara relevant för min egen uppsats samt vad som länkar dem samman. I avsnitt 5 beskrivs den teoretiska ram uppsatsen bygger på. I avsnitt 6 presenteras resultatet utifrån de testsökningar jag utfört i Musikwebbs informationssystem. I samband med presentationen av sökresultaten sker även en analys av resultatredovisningen. Denna analys sker med hjälp av evalueringsverktygen som presenterades i avsnitt 3. I avsnitt 7 utgår jag från de tidigare kapitlen och besvarar mina frågeställningar. Detta sker dels genom analysen av testsökningarna, men det sker även med hjälp av den tidigare forskning jag presenterat i avsnitt 4. I avsnitt 8 står att läsa en sammanfattning av uppsatsen där de viktigaste delarna står att läsa i komprimerad form. På detta följer magisteruppsatsens källförteckning. I bilaga 1 återfinns en figur- och tabellförteckning. 3 2. Bakgrund Under denna rubrik presenteras musiktjänsten jag valt att evaluera, Musikwebb, samt två andra musiktjänster; allmusic/All Music Guide och Spotify. Anledningen till att jag valt att inkludera en presentation av allmusic/All Music Guide är att denna webbtjänst kommer att vara frekvent förekommande i avsnittet om tidigare forskning då den ofta anses kunna vara behjälplig vid indexeringsprocessen. Spotify är en konkurrerande musiktjänst. Marknadsundersökningsföretaget TNS SIFO genomförde en undersökning 25-29 november 2009 om Spotify och andra musiktjänster. Utifrån resultatet i denna undersökning kunde de fastslå att Spotify var, för svenskar, den dominerande musiktjänsten på Internet.4 TNS SIFO uppskattar att 2,9 miljoner svenskar har tillgång till Spotify i hushållet. Detta motsvarar 37 % av svenskarna i åldersspannet 9-79 år. Antalet svenskar i detta åldersspann som uppgav att de hade tillgång till någon annan musiktjänst5 via Internet var endast 8 %. Dessa övriga musiktjänster var ej specificerade så det går inte att veta hur stor andel exempelvis Musikwebb har av dessa 8 %.6 Då Spotify på kort tid blivit den i särklass största musiktjänsten bland den svenska befolkningen kan det alltså vara naturligt att se vilka likheter och skillnader som finns mellan Musikwebb och Spotify. 2.1 Musikwebb Musikwebb är en online-utlåningstjänst för musik som BTJ lanserade 2006, men som Basepoint Media sedan den 1 januari 2009 tillhandahåller. Denna tjänst kunde i början av oktober 2009 erbjuda drygt 2,6 miljoner ljudfiler. Önskar någon nyttja Musikwebb krävs en PC med Internetuppkoppling. All musik på Musikwebb är i Windows Media Audio-format (WMA) med DRM-skydd (Digital Rights Management). Detta innebär att filerna är kopieringsskyddade, men det innebär också att filerna endast kan bli lyssningsbara genom att de laddas ner till en dator vilken har Windows installerat samt Windows Media Player i version 9 eller senare. Vill användaren föra över filerna till en bärbar spelare krävs Windows Media Player version 10 eller senare. Det är dock inte alla bärbara spelare vilka kan hantera DRM-skyddade WMA-filer. Apples Ipod klarar exempelvis inte av att spela upp dylika ljudfiler.7 Då användarna inte ska behöva låna musikinspelningar utan att ha viss kännedom om musikinspelningen är ett spår som passar denne är det möjligt för användaren att lyssna 30 sekunder på varje spår. Detta gör att användaren åtminstone kan få viss vägledning i att kunna avgöra om ljudfilen är av intresse eller ej.8 Vid lån hos Musikwebb behöver inte användarna lämna tillbaka de musikinspelningar som lånats. I samband med att lånetiden är till ända, sju dagar efter att ljudfilen aktiverats, upphör spåret att fungera. För låntagarna tillkommer inga kostnader för att kunna låna musik från denna tjänst. Vad som krävs är att folkbiblioteket vid vilket låntagarna har ett lånekort valt att använda delar av sina ekonomiska resurser till att abonnera på tjänsten Musikwebb. 9 Folkbiblioteken har själva möjlighet att avgöra hur många musikinspelningar användarna kan låna från Musikwebb. Det kan exempelvis vara ett visst antal spår per 4 TNS SIFO 2010, s. 2. Webbradio betraktades i undersökningen ej vara en musiktjänst. 6 TNS SIFO 2010, s. 11. 7 Musikwebb, Basepoint Media 2009a. 8 Musikwebb, Basepoint Media 2009b. 9 Musikwebb, Basepoint Media 2009b. 5 4 månad, ett visst antal lånade spår samtidigt eller så många spår som användaren själv önskar.10 Nedanstående information bygger på de iakttagelser jag gjort i samband med att jag undersökt hur användarna kan bruka Musikwebb. De tillgängliga sökalternativen medger enkel sökning på artist, titel eller allt. Väljer användaren att söka i fältet allt utför sökfunktionen en sökning i samtliga fält. Detta innebär att sökningen sker på artist- eller gruppnamn, albumtitel, spårtitel, genre samt skivbolag. Utgivningsår inkluderas däremot ej i denna sökning. Väljer användaren att istället söka efter artist görs en sökning i databasen efter matchande artist- eller gruppnamn. Den tredje varianten i Musikwebbs sökfunktion är titelsök och då är album- samt spårtitlar sökbara. Det andra sättet att söka i Musikwebbs utbud är att användaren kan använda sig av antingen genre- eller artistlistan och i någon av dessa bläddra sig fram tills användaren finner en intressant artist/grupp eller musikinspelning. Väljer användaren att använda genrelistan för sökning väljer denne önskad genre bland de 51 genrer11 vilka är tänkta att representera Musikwebbs bestånd. När användaren valt en genre förflyttas denne till en sida där de 25 första spåren, vilka indexerats med den utvalda genrekategorin, finns angivna. För att ta sig vidare till nästkommande 25 spår finns länkar på nedre delen av sidan. Utgångsläget är att användaren ser listan sorterad utifrån namnet på artisten/gruppen i stigande alfabetisk ordning. Det går dock att sortera sökträffslistan utifrån spår- eller albumtitlarna i alfabetisk ordning, och då antingen i stigande eller fallande alfabetisk ordning. Givet att spåret ej indexerats vid mer än ett tillfälle återfinns varje spår endast under den genre indexeraren ansett vara mest relevant. Olika spår på samma album kan erhålla olika genrebeteckningar. Väljer användaren att istället söka efter önskade musikinspelningar via artistlistan presenteras användaren en lista över alfabetet. Bokstaven a är förvalt i denna lista. På denna sida återfinns de 30 första artisterna vars förnamn börjar på bokstaven a. Det är ej möjligt att använda sig av denna sökmetod för att finna artister/grupper vilkas namn börjar med en siffra, ett tal eller något specialtecken. Utvecklarna av Musikwebb har valt att ej använda sig av auktoritetskontroll vilket innebär att det i listan kan förekomma flera olika namnformer av samma namn. Det finns ej något alternativ för någon form av avancerad sökning där det är möjligt att kombinera olika sökmöjligheter. Detta kan exempelvis vara att kunna söka på en viss genre samt ett visst årtal. Däremot är det möjligt att utföra en sökning och sedan sortera sökträffarna utifrån spår- eller albumtitlar eller genre eller artistens/gruppens namn. Detta antingen i stigande eller fallande alfabetisk ordning. Väljer användaren att söka på exempelvis sökordet Bow vid sökningar på allt, eller artist, skulle även Bowie vara en tänkbar träff givet att det finns någon artist eller musikinspelning där namnet/ordet Bowie förekommer. När användaren, genom att använda något av sökalternativen, utfört sin sökning får denne se en lista med de spår vilka innehåller det, eller de, ord som valdes som sökord. Det finns ej något alternativ för att kunna se en lista över de album dessa spår förekommer på. Vill användaren se ett specifikt album klickar denne på albumnamnet, 10 11 Musikwebb, Basepoint Media 2009b. Se tabell 6.3 för en komplett lista av Musikwebbs genrer. 5 men möjligheten att se en lista över samtliga tillgängliga album med en viss artist eller inom en viss genre är alltså ej möjligt. 2.2 allmusic/All Music Guide All Music Guide grundades 1991 med syfte att hjälpa musikälskare att kunna få ny och fördjupad kunskap om musikvärlden, dess många genrer och än fler undergenrer. Året därpå släpptes den första av All Music Guides referensböcker och ytterligare några år senare, 1995, grundade All Music Guide webbsidan allmusic. Denna webbtjänst är en databas med fokus på all världens musik. Existerar en genre är målet att den ska finnas angiven på allmusic, oavsett hur smal den än är. För att kunna lyckas uppnå detta mål består All Music Guide av ett antal redaktörer samt hundratals experter där var och en har specialkunskaper om någon eller några genrer. En stor fördel med denna bemanning är att användarna ska kunna veta att en betygsättning av ett album är gjord av någon som är kunnig inom just denna genre. En recensent som är expert på genren blues skulle alltså ej betygsätta ett album inom genren electronica. Den främsta intäktskällan för All Music Guide är organisationer som valt att använda material från allmusic.12 En av dessa organisationer är Spotify.13 Denna webbtjänst kommer flera gånger att refereras till i kapitlet om tidigare forskning då informanter i olika studier ansett att andra musiktjänster, exempelvis Musikwebb, borde nyttja allmusics expertis. En fördel med allmusic är att användarna på ett enkelt sätt kan se om en artist varit, eller är, medlem i en grupp samt vilka artister som influerat en specifik artist eller vilka artister denne influerat. Det går även att se liknande artister, vilken eller vilka genrer artisten varit aktiv inom samt vilka stilar som förknippas med artisten och mycket annan information. För att konkretisera informationen om allmusics webbtjänst valde jag att besöka sidan om Freddie Mercury. På denna sida kan användaren se en bild av Mercury. På översiktssidan kan användaren även läsa inledningen till den biografi som finns om Mercury på allmusic. I olika faktarutor och tabeller går det att läsa att Freddie Mercury föddes den 5 september 1946 på Zanzibar och dog i London den 24 november 1991. Han var en aktiv artist under 1970-, 1980-, och 1990-talet inom genren pop/rock. Han var sångare, men spelade även piano och keyboard. Freddie Mercury var medlem i grupperna Queen och Smile och en liknande artist är exempelvis Brian May, som också var medlem i Queen. Allt detta står att läsa på Overview (översiktssidan) om Freddie Mercury. Vill användaren veta mer om Freddie Mercury finns flikar med namnen Biography, Discography, Songs, Credits, Charts & Awards. Under fliken biography (biografi) står att läsa hela den biografi ur vilken det fanns ett utdrag på översiktssidan. På sidan för discography (diskografi) kan användaren se en lista över de album och singlar Freddie Mercury gav ut. Sidan om songs (sånger) är även den väldigt användbar då det ofta, om än inte alltid, finns en lista över några av de mest kända låtarna en artist, eller grupp, spelat in. Ofta går det även att lyssna på kortare utdrag ur dessa låtar. För just Freddie Mercury kan användarna lyssna på snuttar av nio av elva låtar. Under fliken credits listas alla de musikinspelningar Freddie Mercury varit medverkande på, samt vilken roll han haft under musikinspelningarna. Den sista fliken, charts and awards (listor och utmärkelser), visar vilka album och singlar som legat på den amerikanska Billboard-listan samt vilka Grammys Freddie Mercury vunnit i USA.14 Om användaren vill veta mer om den genre Freddie Mercury var verksam inom, pop/rock, är det möjligt att klicka på genretermen. Användaren förflyttas då till 12 allmusic 2009. Spotify 2009. 14 allmusic 2009. 13 6 översiktssidan för just denna genre. På denna sida står att läsa en beskrivning av genren. Längre ner på sidan finns något som kan vara av intresse för användaren; en lista över stilar inom genren. För just genren pop/rock finns 13 stilar, eller undergenrer om man så föredrar, angivna. Under var och en av dessa 13 undergenrer finns ett stort antal än mer specificerade genrer listade. Enbart under undergenren hard rock (hårdrock) finns över 30 än mer specificerade genrer angivna. Längre ner på sidan finns listor över de främsta artisterna inom genren, som i det här fallet är huvudgenren pop/rock, liksom de främsta albumen och de främsta låtarna inom just denna genre. 20 artister eller grupper är listade samt topp tio av album och låtar. Vill användaren se fler artister/grupper, album eller låtar är detta möjligt genom att klicka på en länk för att få se en fullständig lista. Längst ner på sidan går det att läsa essäer om den aktuella genren vilka skrivits av All Music Guides skribenter.15 2.3 Spotify Under det senaste året har en svensk musiktjänst blivit mycket populär. Denna musiktjänst heter Spotify. Spotify låter användarna få tillgång till ett stort musikbibliotek genom att användarna brukar Spotifys egen mediaspelare. Från Spotifys servrar strömmas sedan musikinspelningarna till användarna. Strömning innebär att användarna måste vara uppkopplade till Spotifys server för att kunna lyssna på musik. Musiken laddas ner under tiden användarna lyssnar på den. Vad detta innebär är att fördröjningen innan musiken börjar spelas upp är så kort att den inte ens ska märkas.16 Totalt strömmas miljarder låtar varje månad och varje dag tillkommer tiotusentals nya Spotify-användare.17 För användarna kan Spotify vara gratis att bruka. Ett gratiskonto innebär dock att användarna förutom musik även nödgas lyssna på reklammeddelanden med jämna mellanrum. Önskar användaren slippa lyssna på denna reklam är det möjligt att betala för tjänsten genom att skaffa sig ett premiumkonto. Det finns två olika sorters premiumkonton där det ena kontot i dagsläget kostar 9 kr per dag och det andra kontot kostar 99 kr per månad.18 För att bruka Spotify krävs att användaren använder Mac OS X 10.4 eller senare, Windows XP eller senare. Det går även att använda Spotify genom Wine19 i Linux. För att kunna lyssna på musiken krävs också att användaren använder Spotifys egen mediaspelare.20 I samband med att användarna brukar tjänsten är det möjligt att skapa spellistor med olika teman eller inom olika genrer. I princip är det enbart fantasin som sätter stopp för ens kreativitet vad gäller spellistor. Dessa spellistor kan användaren sedan dela med sig av till andra användare.21 Det är inte möjligt att gratis ladda ner den musik man vill lyssna på. Har användaren ett premiumkonto för 99 kr per månad är det däremot möjligt att skapa en offline-spellista 15 allmusic 2009. Spotify 2009. 17 Sehr, Andres, Spotify 2009. 18 Spotify 2009. 19 Wine är en mjukvaruapplikation som låter användarna av Unix-baserade operativsystem, som olika varianter av Linux, använda program skapade för Microsoft Windows. 20 Spotify 2009. 21 Spotify 2009. 16 7 på max 3 333 låtar som går att lyssna på om användaren saknar tillgång till Internet. Detta kan vara exempelvis på en laptop, en Iphone, eller en mobiltelefon med operativsystemet Android. Användarna har även möjlighet att köpa musik via Spotify, och detta sker genom att användarna betalar för att ladda ner ett spår, oftast laddas dessa spår ner i form av mp3-filer. 22 För att kunna återvinna önskad musik i Spotify kan användaren välja att söka på exempelvis genre:techno. Är inte all techno av intresse utan endast den techno vilken skapades under första halvan av 1990-talet är det möjligt att begränsa sökningen till genre:techno year:1990-1995.23 Spotify har valt att licensiera delar av sitt material från All Music Guide och för att beskriva hur Spotify fungerar har jag valt att utgå från samma exempel här som vad jag gjorde hos All Music Guide.24 Följande är mina iakttagelser om hur Spotifys mediaspelare25 fungerar. När användaren besöker sidan för Freddie Mercury kan denne se en översiktssida där det är möjligt att läsa ett utdrag ur den biografi som även finns publicerad på allmusic. Till höger om detta utdrag återfinns artister vilkas musik liknar Freddie Mercurys egen musik. Under detta finns en funktion som kallas för Top hits. Här kan användaren se Freddie Mercurys fem populäraste låtar på Spotify. På detta följer en lista över Freddie Mercurys musikinspelningar där först album står angivna följt av singlar och avslutningsvis album där Freddie Mercury står angiven som en av de deltagande artisterna. Hit räknas dock ej musikinspelningar där Freddie Mercury är en av medlemmarna i en grupp utan enbart musikinspelningar där Freddie Mercury explicit står angiven som en av artisterna. Under den andra fliken, biography, återfinns hela den biografi som också återfinns på allmusic. Var gång det hänvisas till en annan artist eller grupp (exempelvis Queen) återfinns en klickbar länk till denna artist eller grupps Spotify-sida. Den tredje länken kallas Artist radio. På denna sida kan användaren se mer av den information vilken är licensierad från All Music Guide. Dels är det möjligt att se vilka decennier Freddie Mercury var aktiv. Det är även möjligt att se vilka genrer Freddie Mercury var aktiv inom. Utöver det kan användaren även på den här sidan se vilka fem låtar som är de mest populära med Freddie Mercury på Spotify. Denna sidas huvudsakliga syfte torde däremot vara själva artistradion. Detta innebär att användaren skapar en slags radiokanal där låtar med Freddie Mercury varvas med låtar av artister vilka skapat musik som påminner om Freddie Mercurys musik. Också dessa artister presenteras på sidan med namn, vilka decennier de var aktiva samt vilka genrer de varit verksamma inom. Jag utgår här från samma genre jag valde hos All Music Guide, pop/rock. Det är då möjligt att se några av de artister vilka skapat musik inom denna genre. Totalt är det 1 107 artister som har kategoriserats med genretaggen pop/rock. Det är även möjligt att se några av de 3 869 album inom denna genre. Användaren får även veta att totalt 55 670 spår är kategoriserade som pop/rock. Längre ner på denna sida återfinns ett antal av de spår vilka taggats med denna genrekategorisering. Dessa spår går att sortera i fallande eller stigande ordning utifrån låttitel, artistnamn, låtlängd, popularitet eller albumtitel. 22 Spotify 2009. Spotify 2009. 24 Spotify 2009. 25 Spotify Version 0.3.21. (revison 56306) 23 8 Ett annat sätt att få tips om intressanta musikinspelningar är att använda sig av Top lists. På denna sida kan en användare se vilka låtar eller album användaren själv lyssnat på flest gånger. Användaren kan också se vilka låtar eller album som för tillfället är de mest populära på Spotify i helhet, eller bland Spotifys användare i de olika länder i vilka Spotify är tillgängligt. 9 3. Metod Syftet med uppsatsen var att undersöka och evaluera Musikwebbs sökfunktioner, samt ämneskategorisering, i det urval jag valde för studien samt att undersöka huruvida jag kunde anse att den nuvarande vokabulären var tillräcklig för ett bestånd av Musikwebbs storlek. För att kunna besvara mina frågeställningar valde jag att utföra ett antal testsökningar hos Musikwebb. För att sedan kunna analysera dessa testsökningar valde jag att även göra litteraturstudie om indexeringsteori där F. W. Lancasters teorier om informationsåtervinning stått i fokus, men där också andra forskares åsikter och teorier nyttjats. 3.1 Optimeringskriterier I likhet med ämnet för innevarande magisteruppsats skrev Jesper Eriksson och KarlOskar Freij 2008 en magisteruppsats vid Högskolan i Borås om musik och kunskapsorganisation där de gjorde en jämförande studie mellan klassifikationssystemen DDC, SAB och UDC. För att kunna analysera de resultat de erhållit rådfrågade de sin handledare, Tor Henriksen, om vad som skulle kunna vara ett lämpligt analysverktyg. Henriksen föreslog då att Eriksson och Freij skulle bruka sju optimeringskriterier där grunden till dessa var hämtade från bland annat Ranganathan, Bliss och Mills teorier om kunskapsorganisation.26 Jag har i min uppsats valt att utgå från en modifierad variant av deras analysverktyg då samtliga kriterier de valde ej är tillämpliga på Musikwebbs vokabulär. De kriterier jag beslutade mig för att välja vid analyseringsprocessen är specificitetsprincipen, exklusivitet, auktoritetskontroll samt evalueringsverktygen precision och recall. Nedan följer en utförlig beskrivning av valda optimeringskriterier. 3.1.1 Specificitetsprincipen I samband med valet av lämpliga indexeringstermer är det ytterligare ett val som behöver göras och det är på vilken specificitetsnivå indexeringstermerna skall väljas. Vad gäller indexering är det viktigaste för indexeraren, och har varit ända sedan Cutter skapade sina regler för att beskriva hur man konstruerar en bibliotekskatalog, att finna den mest specifika term vilken kan beskriva ämnet på ett fullgott sätt.27 För indexeraren gäller det att avgöra hur precist det går att kategorisera dokumentet samtidigt som söktjänsten förblir användbar. Är indexeringstermerna för breda kan det skapa problem då de täcker in för många dokument. Träffarna och termerna kan då minska i relevans vid det praktiska användandet.28 Det är även viktigt att den kontrollerade vokabulären tillåter mer specificerade ämnesord om detta krävs. Det spelar ingen större roll vilken kunskap indexeraren än besitter om den som skapat den kontrollerade vokabulären skapat den på en nivå som är väl ytlig för att den praktiska användningen ska bli funktionell för såväl indexerare som användare.29 Indexeraren bör alltså försöka få termerna så precisa och specifika som möjligt för att representera dokumentets innehåll. Behandlar dokumentet vitlök bör ämnesordet vitlök användas och inte ämnesordet lök eller möjligen lökväxter. Man bör samtidigt ha i åtanke hur det övriga beståndet ser ut. Finns det inga andra dokument som behandlar 26 Eriksson, Jesper & Freij, Karl-Oskar 2008, s. 24. Lancaster, F. W. 2003, s. 33. 28 Harter, Stephen P. 1986, s. 114. 29 Lancaster, F. W. 1986, s. 148. 27 10 vitlök, eller ens lökar eller lökväxter kan en alltför hög grad av specificitet medföra att sökmöjligheterna för användarna blir försämrade.30 Cutter fastslog redan 1876 att den föredragna termen är den som är mest trolig att användarna använder.31 Är det mest specificerade begreppet för specificerat menar Hellsten & Rosfelt att indexeraren istället ska välja den närmast överordnade termen istället.32 För indexeraren är det alltså viktigt att tänka på vilka användarna är samt hur beståndet ser ut för att på så sätt kunna göra lämpliga ämnesbegränsningar. Uppnår inte termen önskad specificitet går detta att justera så att den valda termen är mer snäv, eller för den delen bredare.33 Ett exempel där klassifikationssystemet inte är tillräckligt specifik är om en uppfödare av kaniner skulle använda sig av Deweys klassifikationssystem för att finna dokument om en specifik kaninras. Detta är dock inte möjligt då samtliga dokument om tamkaniner finns samlade under signumet 636.9322. Följden av detta blir att uppfödarens sökning via signumet kommer att resultera i många irrelevanta sökträffar.34 3.1.2 Precision och recall Något i princip alla användare av en databas har gemensamt är att de förmodar att systemet ska kunna återvinna ett eller flera dokument användaren har nytta av, det vill säga dokument vilka kan betraktas vara relevanta. I vissa undantagsfall kan det dock vara så att användaren inte vill att systemet ska kunna återvinna några dokument, och då är en sökning där systemet inte finner några relevanta dokument en lyckad sökning. Ett exempel på detta är någon som tänkt sig att söka patent för något och då givetvis inte vill att någon annan ska ha hunnit före med en patentregistrering. 35 Vid sökningar i en databas är det optimala att användaren lyckas återvinna de, för sökningen, relevanta dokumenten, och endast dessa dokument. När sökningen skall evalueras brukar följande figur användas: Antal relevanta dokument Antal irrelevanta dokument Antal återvunna dokument Antal ej återvunna dokument A B C D Figur 3.1. Det kvantitativa resultatet vid en sökning indelat i fyra fält utifrån om de är relevanta, 36 irrelevanta, återvunna eller ej återvunna. För att kunna evaluera hur väl återvinningen har lyckats delas samlingen upp i olika fält; återvunna dokument respektive ej återvunna dokument (A och B respektive C och D). Likaså delas de, för sökningen, relevanta dokumenten upp i två delar (fält A och C i figur 3.1) utifrån om de återvunnits eller ej. De irrelevanta dokumenten kan ses i fält B och D i figur 3.1.37 30 Hellsten, Unn & Rosfelt, Margareta 1999, s. 28. Lancaster, F. W. 1986, s. 61. 32 Hellsten, Unn & Rosfelt, Margareta 1999, s. 77. 33 Benito, Miguel 2001, s. 268ff. 34 Rowley, Jennifer & Hartley, Richard 2008, s. 133. 35 Lancaster, F. W. 1986, s. 132. 36 Harter, Stephen P. 1986, s. 156. 37 Harter, Stephen P. 1986, s. 155f. 31 11 Vid optimal återvinning är värdet noll i fält B och C. Detta innebär att inga irrelevanta dokument återvunnits och det finns heller inga relevanta dokument som ej återvunnits. Detta är dock ovanligt vid praktiskt användande. För att kunna göra en kvantitativ mätning på hur väl återvinningen har lyckats är det möjligt att använda sig av optimeringskriterierna precision och recall.38 Med recall avses antal återvunna dokument som är relevanta dividerat med det totala antalet relevanta dokument. Detta innebär alltså värdet i fält A dividerat med det totala värdet av fält A samt fält C.39 För att nämna ett exempel: i samlingen A finns totalt 100 dokument. Av dessa 100 dokument är 40 dokument relevanta vid sökning 1. Vid sökning 1 återvinns 30 av de 40 relevanta dokumenten i samling A. För att beräkna recall-värdet tar man talet 30 (A) och dividerar det med summan av 30 + 10 (A + C). 30 dividerat med 40 blir 0,75 (75 %). Recall-värdet blir alltså 75 % vid sökning 1. Med precision avses hur väl användaren lyckats undvika irrelevanta dokument samtidigt som denne återvunnit relevanta dokument.40 Precisionsvärdet räknas ut genom att dividera antalet återvunna samt relevanta dokument med det totala antalet återvunna dokument.41 För att återigen använda samma exempel jag använde när jag visade hur recall-värdet ska räknas ut tillkom det 20 dokument vid sökning 1 som var irrelevanta. För att beräkna precisionsvärdet tar man talet 30 (A) och dividerar det med summan av 30 + 20 (A + B). 30 dividerat med 50 blir 0,6 (60 %). Precisionsvärdet blir då 60 % vid sökning 1. Det bästa vore om informationsåtervinningssystemen kunde utvecklas så att båda dessa värden blir väldigt höga. Studier har dock visat att när det ena värdet ökar är det vanligt att det andra sjunker. Utvecklarna bör alltså främst fokusera sitt arbete på att uppnå en jämn balans mellan de två olika optimeringskriterierna.42 Ju mer databasen växer, desto mer specifika ämnesord bör väljas. Görs inte detta kan precisionen snabbt sjunka till nivåer vilka ej kan betraktas vara acceptabla. F. W. Lancaster tar som exempel på detta upp att i den amerikanska biblioteksvärlden är antalet ämnesord, vilka ska beskriva dokumenten i helhet, under två ämnesord per dokument i snitt. Detta kan ha varit acceptabelt för femtio år sedan när samlingarna var mycket mindre, och kan förvisso fortfarande vara det i mindre samlingar, men inte när samlingarna uppgår till miljontals dokument. Följden av det låga antalet ämnesord har lett till att många av sökträffarna vid sökningar i bibliotekskatalogerna är irrelevanta sökträffar och precisionen blir därmed låg.43 Hos Musikwebb, som har ett stort antal musikinspelningar i sitt bestånd, bör alltså antalet ämnesord, genrer, vara högt annars riskerar precisionen att sjunka till värden som försvårar sökprocessen avsevärt för användarna. Recall-värdet kan vara svårt att räkna ut då det ofta är svårt att veta hur många relevanta dokument det finns i samlingen. En samling kan bestå av väldigt stora mängder dokument och att förvänta sig att man känner till värdet på A + C i en stor samling är sällan rimligt.44 Det finns då alternativa recall-uträkningar vilka är möjliga att använda 38 Harter, Stephen P. 1986, s. 156. Lancaster, F. W. 1986, s. 132. 40 Rowley, Jennifer & Hartley, Richard 2008, s. 294. 41 Lancaster, F. W. 1986, s. 133. 42 Rowley, Jennifer & Hartley, Richard 2008, s. 294. 43 Lancaster, F. W. 2003, s. 30f. 44 Lancaster, F. W. 1986, s. 136. 39 12 sig av i sin evaluering. En av dessa är att använda sig av ett antal olika personers sökningar och betrakta det totala antalet relevanta och unika dokument de återvunnit som det totala antalet relevanta dokument i systemet. En annan metod är att utgå från det totala antalet dokument en expert lyckats återvinna och sedan jämföra dennes resultat med det resultat så kallade vanliga personer lyckats uppnå. Ytterligare ett alternativ för att beräkna recall-värdet är att utgå från hur många relevanta dokument användaren känner till att det finns i databasen.45 3.1.3 Exklusivitet Med termen exklusivitet avses att det på en och samma nivå inte ska finnas termer vilka överlappar varandra.46 Finns det exempelvis en godkänd term för jazz får det inte på samma nivå finnas en godkänd term för storbandsjazz. Skulle det göra det överlappar dessa två termer varandra då storbandsjazz är en variant av jazz. Ett problem som lätt kan uppstå med termer vilka överlappar varandra är att det blir svårare för indexerarna att vara konsekventa i sin indexering. I ett exempel, hämtat ur verkligheten, visar Lancaster vilka problem som kan uppstå när de närliggande termerna reading interests samt reading attitudes går att välja som termer för att representera ett dokument. Utöver det hade den ena indexeraren valt literature appreciation och reading material selection och den andra indexeraren hade istället valt literature criticism och reading materials.47 Trots att andemeningen är densamma mellan de två indexerarnas valda termer kan recall-värdet komma att bli lågt om de valbara termerna ej är exklusiva. 3.1.4 Auktoritetskontroll Vad gäller artister och grupper är det inte ovanligt att dessa namn förekommer i många olika namnformer. Vid katalogisering kan det alltså vara av godo att ha tillgång till auktoritetskontroll då detta innebär utökade möjligheter för att ingångarna i databasen ska vara konsekvent utformade.48 Ovanstående stycke refererar till en artikel skriven av Sherry L. Vellucci. För att exemplifiera denna problematik har jag valt att skapa ett exempel baserat på hennes namn. I en databas som inte använder sig av auktoritetskontroll kan det uppstå problem om man inte vet vilken namnform som ska användas. Några exempel på olika namnformer hennes namn och titel kan skapa är Sherry Vellucci, Dr. Sherry Vellucci, Sherry L. Vellucci, S. L. Vellucci, Sherry Lynn Vellucci. Förekommer samtliga dessa namnformer i katalogen försvåras möjligheterna att återvinna samtliga hennes texter och recall-värdet kan snabbt komma att sjunka. 45 Rowley, Jennifer & Hartley, Richard 2008, s. 296. Ranganathan, S. R. 1989, s. 160. 47 Lancaster, F. W. 2003, s. 79. 48 Vellucci, Sherry L. 2001, s. 541f. 46 13 3.2 Urval 3.2.1. Genren audiobooks För att minimera det subjektiva tyckandet och maximera det objektiva tänkandet i urvalsprocessen valde jag att använda mig av genren audiobooks (ljudböcker). Ljudböcker anser jag vara relativt lätt att kategorisera på ett objektivt sätt då denna genre indikerar att ljudfilen skall bestå av en uppläst bok. Det finns dock två andra genrer vilka kan betraktas vara närliggande bland de kategorier som är tillgängliga på Musikwebb och dessa genrer är dokumentär samt komedi. Frågan är då om dessa tre kategorier kan vara exklusiva gentemot varandra eller ej. Hur indexeras exempelvis en bok med dokumentära inslag när dubbelkategorisering inte är möjlig? Hur ska en dylik bok sedan på ett enkelt sätt kunna återvinnas om användaren enbart utgår från bokens genre och inte dess titel? Vad som står i fokus för denna testsökning är att studera optimeringskriterierna precision samt exklusivitet. Vad gäller termen precision undersöker jag här hur många av de album, vilka kan återvinnas vid en genresökning, som kan betraktas vara relevanta då användaren efterfrågar ljudböcker i kategorin audiobooks. Kriteriet exklusivitet undersöker jag genom att se om det uppstår några problem gentemot kategorierna dokumentär samt komedi. 3.2.2. Sökordet Christmas Vad som är av störst intresse att undersöka vad gäller sökordet Christmas är vilket recall-värde en användare kan förvänta sig om den använder sig av genresökning och då väljer kategorin julmusik för att återvinna musikinspelningar vilka innehåller ordet Christmas i titeln. En genre specifikt för julmusik är egentligen ingen riktig genre utan snarare ett tema där musikinspelningar inom i princip samtliga genrer kan samsas. Min arbetshypotes vad gäller Christmas är därför att merparten av de titlar vilka inkluderar detta sökord bör vara kategoriserade under genrebeteckningen julmusik då det förefaller mig som mest troligt att användarna främst är intresserade av musikinspelningar med Christmas i titeln i samband med jul. Detta medför att dessa musikinspelningar inte kan betraktas vara lika intressanta resterande delar av året. Det finns flera anledningar till att jag valde att använda mig av det engelska ordet Christmas istället för det svenska ordet jul. En sökning på ordet jul skulle innebära att även namnet Julia, vid bruk i en titel, och ordet hjul renderar i sökträffar. Dessa sökträffar skulle, med väldigt hög sannolikhet, vara irrelevanta sökträffar. Dessutom går det inte att bortse från att det finns en viss sannolikhet för att sökfunktionen ändras så att en sökning på jul enbart skulle rendera i träffar på ordet jul. Hjul och Julia skulle då inte återvinnas av systemet, men det skulle inte exempelvis julgran, julafton eller julklapp heller göra. I engelskan är det ovanligt med sammansatta ord vilket innebär att ordet Christmas inte blir lika känsligt för en ändring i sökfunktionen. Bruk av ordet Christmas kan alltså vara att föredra om någon i framtiden skulle vilja använda de resultat jag erhållit genom mina sökningar och göra en komparativ studie mellan Musikwebb nu och då. 14 Vid en sökning efter ordet Christmas i titeln genomsöker sökfunktionen såväl albumtitlar som spårtitlar. Detta innebär att musikinspelningar med Christmas i titeln indirekt kan behandla julen, men likväl innebära en träff som inte kan betraktas vara relevant för sökningen. Detta kan exempelvis ske om en artist släpper en utgåva, särskilt för julen, av ett album med ordet Christmas i titeln, men det är alltså kanske bara någon enstaka, eller t.o.m. ingen, av låtarna som kan betraktas vara julmusik. Det kan även finnas exempel på låtar vilka innehåller Christmas i titeln trots att låten inte alls är en jullåt. Jag har dock gjort bedömningen att dessa låtar torde vara tämligen få i jämförelse med de låtar vilka faktiskt är jullåtar. Det går dock inte att bortse från möjligheten att ett smärre urval av resultatet i mina sökningar inte alls är jullåtar. 3.2.3. Det totala beståndet Anledningen till att jag valt att studera antalet musikinspelningar i det totala beståndet är att det dels är tänkt att kunna hjälpa till för att se om Musikwebbs genrer är exklusiva gentemot varandra och/eller om Musikwebbs indexerare följer specificitetsprincipen. Undersökningen är även tänkt att vara till vägledning för att kunna avgöra huruvida Musikwebbs vokabulär innehåller tillräckligt många kategorier eller om antalet kategorier är för många, eller för få. Finns det kategorier med ett högt antal musikinspelningar kan det finnas anledningar att dela upp den kategorin i mindre delar för att göra det enklare för användare att finna den musik som efterfrågas. Finns det kategorier med inga eller väldigt få musikinspelningar kan det tyda på att kategorin i fråga är överflödig och kanske bytas ut mot en lämpligare kategori. 3.2.4. Konsekvensen av att ej använda auktoritetskontroll Musikwebb använder sig inte av auktoritetskontroll. Vad detta innebär är att en artist eller grupp kan förekomma mer än en gång i databasen med snarlika, men ej identiska, namn. Undersökningens syfte är att studera vilka problem som kan uppstå vad gäller recall samt om det är hög sannolikhet för att det uppstår problem på grund av att Musikwebb har valt att ej använda sig av auktoritetskontroll. För att genomföra denna undersökning har urvalet skett utifrån den första sökträffsidan under varje bokstav. Nummer, och andra tecken, finns ej representerat i denna sökmetod och dessa kan därför ej ingå i undersökningen. Urvalet i undersökningen blir alltså de 30 första artist- eller gruppnamnen för varje bokstav. Det totala urvalet skulle därför bli 870 artist- eller gruppnamn. Dock finns bara 26 artister/grupper angivna under bokstaven Å och endast två artister/grupper återfinns under bokstaven Ä. Mitt urval består därför av 838 artist- eller gruppnamn. 3.3 Genomförande Testsökningar har skett vid ett antal tillfällen. Datum för respektive tillfälle anges i samband med beskrivningen av respektive sökmetod. Gemensamt för dessa tillfällen är att de har skett utanför kontorstid. Anledningen till detta är att jag utgått från att de flesta tillskott till beståndet, samt förändringar i detsamma, sker under kontorstid. Skulle en förändring av beståndet ske i samband med att undersökningen utförs skulle det innebära att resultatet av undersökningen, med hög sannolikhet, blir förvanskat. Detta vore givetvis av ondo då undersökningen i sådant fall inte skulle ge en representativ bild av det vilket var tänkt att studeras vid undersökningstillfället. 15 3.3.1. Genren audiobooks Den sökning jag valt för att beskriva Musikwebbs bestånd av audiobooks utfördes den 6/10 2009. När sökningen utfördes sökte jag genom att gå in i kategorin audiobooks och jag sorterade sedan sökträffslistan efter albums. Därefter antecknade jag musikinspelningens artist/grupp, albumnamn samt antal spår på musikinspelningen. Vid fall där jag var osäker på om ljudfilen var en ljudbok eller ej nyttjade jag möjligheten att få lyssna 30 sekunder på ljudspåret för att på så sätt kunna komma med en relevant bedömning. När samtliga 562 ljudspår blivit inräknade sorterade jag sökresultatet efter namnen på artister/grupper i fallande alfabetisk ordning, och det är också på detta sätt resultatet står presenterat i avsnitt 6. 3.3.2. Sökordet Christmas Sökningar efter musikinspelningar med Christmas i titeln skedde första gången den 24/11 2008. Syftet med detta var att göra det precis en månad innan julafton. Jag antog att det var ungefär vid den tidpunkten julmusik skulle öka i popularitet. Nästa sökning skedde 11/3 2009. Ytterligare en sökning utfördes på dagen två månader senare och den avslutande sökningen skedde på dagen nio månader efter att första sökningen ägt rum, 24/8 2009. Då jag utfört sökningar har jag valt att sortera sökträffssidan utifrån musikinspelningarnas genre. Därefter har jag, sida för sida, noterat antalet spår i de olika genrer som är representerade på just denna sida. När samtliga sidor är genomgångna har jag adderat antalet spår från samtliga genrer och jämfört detta tal med det tal vilket anges i samband med antal sökträffar på söktermen, detta i syfte att minska risken för eventuella fel. Om talen inte skulle överensstämma skulle sökningen få utföras på nytt. Just detta skedde dock inte vid någon av sökningarna. Vad som däremot hände vid två av söktillfällena var att tjänsten Musikwebb blev otillgänglig under en viss period. När webbtjänsten väl blev tillgänglig igen valde jag att börja om sökningen från början då beståndet, åtminstone rent teoretiskt, kunde ha genomgått förändringar under tiden som tjänsten var otillgänglig. Resultatet från dessa sökningar presenteras i avsnitt 6 med sökdatum, antal musikinspelningar med ordet Christmas i titeln inom de olika genrerna samt hur många procent av samtliga musikinspelningar med ordet Christmas i titeln detta innebar vid det aktuella söktillfället. Procentsiffran motsvarar recall-värdet för sökningen. 3.3.3. Det totala beståndet För att kunna se hur många musikinspelningar som ingår i det totala beståndet har jag vid ett flertal tillfällen gått igenom genrelistan och valt genre efter genre och noterat hur många ljudspår som fanns kategoriserade inom respektive genre vid just det tillfället. Sökningarna utfördes vid följande datum: 21/5 2007, 18/4 2008, 11/5 2009, 30/9 2009 och 6/10 2009. Även vid dessa sökningar förekom det några gånger att Musikwebb blev otillgänglig. I likhet med Christmas-sökningarna började jag då om från början för att förhindra att få ett resultat vilket eventuellt inte representerade verkligheten. Vad gäller det totala beståndet bör det noteras att ett ljudspår endast kan ha en genrebeteckning, men finns det dubbletter kan detta innebär att samma ljudspår 16 förekommer i mer än en kategori, eller mer än en gång i samma kategori. Den summa dessa sökningar resulterat i kan alltså sägas vara det totala antalet ljudspår hos Musikwebb, men summan kan däremot inte sägas representera det totala antalet unika ljudspår hos Musikwebb. 3.3.4. Konsekvensen av att ej använda auktoritetskontroll För att avgöra vilken inverkan bristen av auktoritetskontroll har på Musikwebbs bestånd valde jag att notera vilka av de 30 första artist- eller gruppnamnen under varje bokstav som, i onödan, förekommer mer än en gång på den första sidan. Denna undersökning skedde den 6/10 2009. Vid artistsamarbeten i form av duetter och dylikt har jag vanligtvis valt att ej inkludera dessa i min resultatredovisning. De är dock inkluderade vid tillfällen då artistsamarbetet förekommer mer än en gång i onödan. Jag har också valt att inte inkludera artister/grupper som förekommer på första sidan trots att de ej borde förekomma där. Ett exempel på detta är Håkan Hellström som på en musikinspelning fått namnet Haakan Hellstroem. Haakan Hellstroem förekom på första sidan av bokstaven H. Dock återfanns inte namnet Håkan Hellström på första sidan av H och detta medförde att jag ej inkluderade förekomsten av Haakan Hellstroem i min resultatredovisning. 17 4. Tidigare forskning I detta avsnitt presenteras tidigare forskning jag ansett vara relevant för föreliggande uppsats. Avsnittet disponeras på så sätt att texter som behandlar Musikwebb redogörs för i delavsnitt 4.1. Texter vilka indirekt behandlar Musikwebb samt andra digitala musiktjänster beskrivs i delavsnitt 4.2. I det tredje delavsnittet redogörs för texter vilka behandlar indexering av musik. Inom varje delavsnitt presenteras texterna i kronologisk ordning. 4.1 Musikwebb Vid Högskolan i Borås skrev Niklas Knutsson 2007 sin kandidatuppsats, Musikwebben: Ett alternativ till illegal fildelning?. Syftet med Knutssons kandidatuppsats var att försöka besvara frågan om Musikwebb kan vara ett fullgott alternativ till illegal fildelning. För att kunna besvara detta valde Knutsson att göra en komparativ studie mellan Musikwebb och fildelningstjänsten Limewire. Dels skedde detta genom att jämföra beståndet hos de båda webbtjänsterna, men Knutsson valde även att undersöka om Musikwebb, med sina då cirka 480 000 låtar, klarade att uppfylla de krav en användare bör kunna ställa på en tjänst av det här slaget. 49 I den komparativa studien utgick Knutsson från Yahoos index av musikgenrer och vid varje sökning slumpade han fram en av dessa genrer. Sedan slumpade han, på ett liknande sätt, fram en artist eller grupp inom just denna genre. Totalt bestod Knutssons urval av 75 olika artister och grupper. Av dessa 75 artister/grupp fanns det ett större utbud på Limewire i 42 av sökningarna. 31 av sökningarna renderade i noll träffar hos såväl Limewire som Musikwebb. I de två återstående sökningarna återfanns fler sökträffar hos Musikwebb än hos Limewire. Det rådde alltså inget tvivel att Limewire kunde erbjuda sina användare ett avsevärt större utbud vad gäller det urval Knutsson slumpat fram. Tyvärr var Knutsson inte tillräckligt noggrann i samband med att han skrev sin resultatredovisning. Vad som inträffade var att fyra av de undersökta artisterna saknas i resultatredovisningen och det är alltså svårt att göra en ny studie med samma urval.50 2008 skrevs magisteruppsatsen Musikwebb: En undersökning med fokus på urval, service och digitalisering vid Högskolan i Borås och författarna av denna magisteruppsats var Klara Cederstrand och Tove Hjorth. Syftet med deras uppsats var att utröna hur bibliotekspersonal uppfattar Musikwebb vad gäller urvals- samt serviceperspektivet.51 För att kunna besvara sina frågeställningar valde Cederstrand & Hjorth att utföra fokuserade gruppintervjuer med bibliotekspersonal vid fyra olika bibliotek vilka samtliga hade Musikwebb i sitt bestånd.52 Vad som främst varit av intresse för mig ur deras uppsats är resultatredovisningen då det i denna stod att läsa hur informanterna, det vill säga bibliotekarier, besvarade frågorna vid Cederstrand och Hjorths fokusgruppsintervjuer. Det jag själv undersöker i innevarande uppsats var också sådant som flera informanter valde att ta upp i de intervjuer Cederstrand och Hjorth utförde. 49 Knutsson, Niklas 2007, s. 4ff. Knutsson, Niklas 2007, s. 15ff. 51 Cederstrand, Klara & Hjorth, Tove 2008, s. 1. 52 Cederstrand, Klara & Hjorth, Tove 2008, s. 12f. 50 18 Informanterna vid bibliotek A berättade att ett antal användare hade påpekat att tjänsten är något svår att använda.53 Likaså ansåg en av informanterna att det var svårt att söka i Musikwebb därför att användargränssnittet inte var användarvänligt. Dessutom var genreindelningen krånglig att förstå. Informanten önskade att Musikwebbs utvecklare blivit mer inspirerade av allmusic vad gäller sökfunktioner samt information om artister och grupper. Denne informant efterfrågade också en funktion som kunde tipsa om liknande artister eller låtar. Informanterna vid bibliotek A var ense om att dylika funktioner skulle göra Musikwebb mer attraktivt för användarna.54 4.2 Digitala musiktjänster 2004 skrev Ulrika Mild magisteruppsatsen Musik på Internet – framtiden för bibliotekens musikavdelningar?. Mild spekulerade i sin uppsats om hur en musiktjänst på Internet, som tillhandahålls av biblioteken, skulle kunna fungera. Milds studie försökte även komma fram till vad en sådan nedladdningstjänst skulle innebära samt om det finns intresse för en sådan tjänst bland användarna.55 Denna uppsats skrevs ett par år före Musikwebbs tillkomst och behandlar då ej Musikwebb utan enbart vad en sådan tjänst skulle kunna innebära. För att kunna besvara sina frågeställningar valde Mild att utföra en enkätundersökning och sedan följa upp denna enkätundersökning genom att utföra kvalitativa intervjuer med fyra av de informanter vilka besvarade enkätundersökningen.56 Genom att analysera resultaten från enkätundersökningen samt de efterföljande intervjuerna drog Mild slutsatsen att användarna i en framtida musiktjänst på Internet borde ha möjlighet att även kunna läsa recensioner och se liknande artister.57 Milds resultat var alltså detsamma som vad Cederstrand och Hjorth kom fram till i sin uppsats om Musikwebb. Vid Umeå universitet skrev Emma Lingman 2007 en magisteruppsats vid namn Musikkonsumtion på Internet: En användarstudie av nedladdningsvanor relaterat till musiktjänster på biblioteket. Lingmans syfte var att undersöka vilka faktorer som påverkar nedladdning av musik från Internet och om bibliotekens musiktjänster kan fungera som ett fullgott alternativ till fildelningsprogram. För att kunna besvara sina frågeställningar valde Lingman att utföra fyra kvalitativa intervjuer med personer vilka regelbundet laddar ner musik. I Lingmans magisteruppsats förekommer Musikwebb frekvent. Anlednigen till detta var dock inte att Lingman analyserade tjänsten i sig utan hon använde tjänsten som ett verktyg för att konkretisera sin studie.58 En av Lingmans fyra informanter ansåg att det var svårt att förstå hur Musikwebb fungerade första gången hon skulle använda tjänsten. En annan av informanterna var missnöjd med sidans design och sökfunktioner. Det denna informant saknade var en sökfunktion för att kunna hitta ett helt album av en artist och informanten saknade möjligheten att kunna låna ett album på samma sätt som man lånar enstaka låtar. Han efterfrågade även mer information om album och artister och möjligheten att få tips om liknande artister och vad som influerat dem, som man kan göra på allmusic. Denne informants tips till utvecklarna på Musikwebb var att Musikwebb borde bli så lik 53 Cederstrand, Klara & Hjorth, Tove 2008, s. 29. Cederstrand, Klara & Hjorth, Tove 2008, s. 30. 55 Mild, Ulrika 2004, s. 2. 56 Mild, Ulrika 2004, s. 37. 57 Mild, Ulrika 2004, s. 40ff. 58 Lingman, Emma 2007, s. 9. 54 19 allmusic som möjligt.59 Det sistnämnda är precis vad en av Cederstrand & Hjorths informanter ansåg att Musikwebb skulle sträva efter. I sin sammanfattande diskussion kom Lingman fram till att man på Musikwebb kan använda sig av ”Artister A-Ö” och ”Genre” för att få inspiration, men att det kan bli en stor nackdel för Musikwebb att de ännu inte implementerat funktionen similarity. Skulle de göra det skulle Musikwebb kunna bli mer attraktiv för användarna.60 En annan nackdel med Musikwebb ansåg Lingman vara att informanterna föredrog att kunna behålla musikinspelningarna de laddar ner vilket inte är möjligt hos Musikwebb.61 Den gemensamma nämnaren mellan Lingmans uppsats, Milds uppsats samt Cederstrand och Hjorths uppsats är alltså att i samtliga uppsatser har informanter efterfrågat möjligheter att kunna se liknande artister och i två av uppsatserna har det dragits paralleller till webbtjänsten allmusic. Musikwebb har gjort valet att inte licensiera material från allmusic vilket däremot den största konkurrenten, Spotify, har gjort. 4.3 Indexering av musik Min egen magisteruppsats behandlar ämnet musikindexering och jag anser det vara av vikt att indexera musikinspelningar på ett sätt som är användbart för så många användare som möjligt. Denna uppfattning framkommer också i den tidigare forskning jag redogör för nedan, och vad som framkommer i den tidigare forskningen är att det kan vara mycket svårt att lyckas skapa en kontrollerad vokabulär som är till så stor hjälp som möjligt för de flesta indexerare och slutanvändare, vilket exemplen i detta delavsnitt är tänkta att illustrera. I mitten av 1980-talet utförde Harry Price en enkätundersökning där syftet var att granska om det behövdes förändringar i Library of Congress ämnesordslista för jazz och populärmusik. Om det efterfrågades förändringar ville Price även undersöka vilka förändringar som behövde ske för att utöka användbarheten av systemet. Resultatet publicerades i artikeln Subject access to jazz and popular music materials on library of congress records.62 Enkätundersökningen visade att bibliotek vilka hade stora samlingar ansåg sig vara mer missnöjda med den nuvarande ämnesordslistan än de bibliotek som hade mindre samlingar. De missnöjda bibliotekarierna ansåg ofta att ämnesordslistan inte var tillräckligt specifik i sina ämnesord. Dock fanns det bibliotek med ett litet bestånd som ansåg att ämnesordslistan redan är en aning för specifik.63 Termen Music, Popular (Songs, etc.) beskrevs ofta som i princip meningslös då termen är för bred. Det förekom även en del klagomål på att vissa genrer saknade bra definitioner och att bibliotekarierna då hade svårt att avgöra vad som var skillnaden mellan vissa genrer. I svaren gick även att utläsa att flera olika termer behandlade samma genre. Något annat som efterfrågades var mer specificerade termer för genrer under rockmusik.64 Det som Price ansåg tydligast framkom i undersökningen var att det borde finnas bättre definitioner av olika genrer i ämnesordslistan. Dock trodde han att det skulle bli mycket svårt - kanske till och med omöjligt att lösa det problemet. Price ansåg också att bibliotekarierna borde försöka att bli bättre på att hålla sig à jour med nya trender och ett sätt att lösa detta skulle vara att uppmuntra bibliotek att tipsa varandra om nya 59 Lingman, Emma 2007, s. 20-27. Lingman, Emma 2007, s. 30f. 61 Lingman, Emma 2007, s. 32. 62 Price, Harry 1985, s. 42f. 63 Price, Harry 1985, s. 45. 64 Price, Harry 1985, s. 45f. 60 20 trender.65 Slutsatsen man kan dra av den här undersökningen är den tämligen logiska slutsatsen att det för större musiksamlingar också krävs mer specifika ämnesord om beståndet ska kunna representeras på ett fullgott sätt, men att det inte nödvändigtvis finns tillgång till en dylik vokabulär. Anledningen till att det kan vara svårt att finna en fullgod vokabulär kommer jag till härnäst. 1991 skapade Ann Harrold och Graham Lea vad som var tänkt att vara en ny och förbättrad musiktesaurus; Musaurus. Anledningen till att de ansåg att det behövdes ytterligare en kontrollerad vokabulär för musik var att de inte ansåg att det fanns någon som vid den tiden var tillräckligt väl strukturerad samtidigt som den var komplett. Harrold och Lea parafraserade Star Trek och ansåg att Musaurus ”is prepared to boldly go where no thesaurus has been before”. Syftet med Musaurus var att den skulle kunna användas för indexering av musik, böcker, artiklar, tidningar m.m. 66 Ann Harrolds och Graham Leas tesaurusförsök blev dock inte så lyckat som de tänkt sig. Tidskriften The Indexer recenserade deras förslag och dess recensent, Margaret L. Christie, var måttligt imponerad och ansåg att Harrold och Lea lagt för stort fokus på kritik gentemot andra kontrollerade vokabulär, inklusive sådana Christie själv ansett fungera tämligen bra för sitt syfte. Christie hade dock själv haft problem med de kontrollerade vokabulär som då fanns tillgängliga. Christies problem var att det saknades bra ämnesord för musik skapad av kvinnor samt kammarmusik som inkluderar engelskt horn. I Musaurus hittade dock Christie inte heller någon lösning vad gäller det förstnämnda problemet då kvinnor saknades som term. I samband med det andra problemet upptäckte Christie ett antal fel. Att Harrold och Lea dessutom blandat ihop kvartett och kvintett förstärkte inte Christies intryck av Musaurus. Recensionen avslutades med att Christie kunde konstatera att hon ansåg Musaurus vara en stor besvikelse.67 Karin Axelssons magisteruppsats Att beskriva musik skrevs 2001 i syfte att försöka besvara frågan om hur man gör för att beskriva musik samt hur musikinspelningar lättast ska kunna återvinnas. Axelsson valde även att redogöra för vilka problem som finns vid skapandet av kategoriseringen av musik. För att kunna besvara sina frågeställningar valde Axelsson att göra en litteraturstudie samt utföra några kvalitativa intervjuer med representanter för några av de svenska specialbibliotek och arkiv vilka är inriktade på musiksamlingar.68 I likhet med min egen studie är specificitetsprincipen en viktig aspekt i Axelssons magisteruppsats. Axelssons informant vid Grammonfonarkivet ansåg att ett problem är att det ofta kommer nya genrer inom populärmusiken och nämnde acid-house som exempel. Denna genre fanns bara i ett år och försvann sedan. Informanten tyckte att det är viktigt att ”tänka till en extra gång så att nya signum blir mer långvariga”. Detta höll dock inte Axelsson med om och skrev således i uppsatsen att hon anser resonemanget vara märkligt. Axelssons åsikt är att oavsett om det inte längre skapas ny musik inom en genre har det ändå skapats musik inom genren och den musik som skapats torde väl behöva denna kategorisering.69 Jag delar Axelssons åsikt då de musikinspelningar som då kallades för acid-house fortfarande torde kunna betraktas vara acid-house. Efterfrågar en användare musikinspelningar inom en genre är det givetvis enklare för denne att hitta dem om de är indexerade som acid-house än om de vore indexerade med en överordnad term. 65 Price, Harry 1985, s. 48. Harrold, Ann & Lea, Graham 1991, s. 16f. 67 Christie, Margaret L. 1991, s. 295f. 68 Axelsson, Karin 2001, s. 5ff. 69 Axelsson, Karin 2001, s. 39f. 66 21 Informanten vid Statens Musikbibliotek förde också ett resonemang kring smala genrer och specificitetsprincipen: Experterna kan ju hitta på många namn; Cantrom från Thailand, Thaicambodian pop, Kesak – apdans från Indonesien, Kriti – hinduisk religiös sång från Indien. Mento – folkmusik från Jamaica inspirerad av calypso. Det är besvärligt. Gör man katalogen för experterna som kan det här, eller lägger man det på en mera generell nivå för att flera människor som ska kunna söka och hitta? Å andra sidan, de som är intresserade av det här kan ju det här. Om dom ska få träff på sina sökningar, då ska det ju vara på den här specificitetsnivån.70 I diskussionskapitlet kom Axelsson fram till vad som är ett problem vid kategorisering av musikinspelningar och det är att flera musikkatalogisatörer anser att tiden inte räcker till, detta leder i sin tur till att de inte har tid att lyssna igenom hela albumet ens en gång. Många inspelningar lyssnas inte på alls och det förekommer att musikinspelningarna då blir tilldelade en genre utifrån dess omslag. Detta, menar Axelsson, kan innebära ”feltolkningar och godtyckliga analyser”.71 I början av 2000-talet skapades Microsofts MSN Music Search Engine (MMSE). Denna sökmotor bygger på similarity-principen. Känner en användare till en låt den gillar ska sökmotorn kunna presenteras andra musikinspelningar som användaren förmodligen kommer att uppskatta. Tanken bakom sökmotorn var att den skulle vara enkel att använda, kunna innehålla miljontals låtar, sökresultaten skulle presenteras på max ett par sekunder och sökträffarna skulle vara relevanta för sökningen.72 För att lyckas skapa ett sådant här informationsåtervinningssystem användes musikvetare som klassificerade katalogen. Totalt bestod musikkatalogen av några hundra tusen låtar och för musikvetarna tog det 30 arbetsår att klassificera musiken. Arbetet utfördes med hög kvalitet och resultaten blev mycket goda. Problemet var att resursåtgången var så hög att Microsoft inte ansåg att det skulle vara möjligt att använda sig av manuell klassifikation om antalet låtar vore flera miljoner.73 Att hög kvalitet tack vare manuellt arbete kan rendera i höga kostnader ter sig tämligen självklart. Ett projekt är dock ofta tänkt att kunna bära sig självt vad gäller projektkostnaderna. Alternativet är att indexeringen sker på ett mer godtyckligt sätt vilket innebär högre risk att kvaliteten blir lidande. Musikwebb hade den 6 oktober 2009 drygt 2,6 miljoner musikinspelningar i sitt bestånd. Detta innebär att det antingen krävs att Musikwebbs indexerare är avsevärt mer effektiva än de musikvetare Microsoft anlitat, att Musikwebb inte skyr några kostnader vad gäller kvaliteten på indexeringen eller att kvaliteten på indexeringen kan ha blivit lidande på grund av den stora mängden musikinspelningar som skall indexeras. Hans Bally och Astrid Evasdotter skrev 2003 magisteruppsatsen Organisation av popoch rockmusiksamlingar i Sverige: En värderingsfråga? vid Högskolan i Borås. Syftet med deras magisteruppsats var att ta reda på hur pop- och rockmusik organiseras vid några av Sverige stora fonogramsamlingar samt att undersöka vilka problem som finns vad gäller att organisera denna typ av musik.74 För att kunna besvara sina frågeställningar valde Bally och Evasdotter att utföra intervjuer med representanter vid Statens ljud- och bildarkiv (SLBA), Sveriges Radios grammofonarkiv i Stockholm, musikaffären Skivhugget i Göteborg, Göteborgs stadsbibliotek, Läsesalongen vid 70 Axelsson, Karin 2001, s. 41. Axelsson, Karin 2001, s. 54. 72 Dannenberg, Roger et al. 2001, s. 54. 73 Dannenberg, Roger et al. 2001, s. 54. 74 Bally, Hans & Evasdotter, Astrid 2003, s. 6. 71 22 Kulturhuset i Stockholm samt Artistens bibliotek vid Musikhögskolan i Göteborg.75 Denna uppsats anser jag vara väldigt intressant för min egen studie då Bally och Evasdotter gjort en jämförelse mellan vad forskare inom biblioteks- och informationsvetenskap anser om exempelvis specificitetsprincipen jämfört med vad praxis tycks vara. Läsesalongen vid Kulturhuset uppvisade en pragmatisk syn på kategorisering av musik då de ansåg att det skulle vara svårt för användarna att söka på genrer om genrerna blir för snäva. Användarna kan då ha svårt att veta vilket namnet är på den genre de eftersöker. Dessutom ansåg det att det är enklare att kategorisera musik vid bruk av bred genreindelning då det annars går åt ”en massa tid till att lyssna igenom och definiera vad [sic!] är vad”.76 Representanten vid SLBA hade en annan invändning mot alltför specificerade genrer och det är att det innebär att samma artist kan spridas över flera olika genrer, och det ansåg informanten är till användarens nackdel när denne använder sig av genresökning för att återvinna intressant musik. Klassifikation är dessutom subjektivt och använder sig organisationen av flera indexerare kan det lätt uppstå inkonsekvens vid kategoriseringsprocessen. Samma artist kan komma att spridas över flera genrer trots att samtliga musikinspelningar av denne artist egentligen borde kunna återvinnas under en och samma genre.77 Bally och Evasdotter kom fram till att de problem informanterna menar finns vid kategoriseringen av pop- och rockmusik är ungefär desamma vid samtliga institutioner. Informanterna ansåg att ett väl specificerat system ökar svårigheten för användarna att kunna bruka systemet, men det ökar även svårigheten för indexerarna vid kategoriseringen. Vid ett stort antal valbara genrer krävs det väldigt goda kunskaper av användare och indexerare för att musikinspelningarna ska kunna tilldelas en korrekt kategori och sedan kunna återvinnas av användaren.78 Åsa Norlund skrev 2005 sin kandidatuppsats Musik och indexering i folkbiblioteken: En analys av ämnesord och indexering i folkbibliotekens onlinekataloger vid Högskolan i Borås. Syftet med Norlunds kandidatuppsats var att resonera kring de ämnesord som används vid återvinning av musikinspelningar i folkbibliotekens onlinekataloger samt vilka rutiner som finns för att klassificera nyss nämnda musikinspelningar. Norlund avsåg att försöka se vilka brister som fanns i dåvarande system samt hur väl ämnesorden kunde sägas representera musikinspelningarna som fanns i onlinekatalogerna. För att göra detta utfördes en litteraturstudie där Norlund utgick från Lancasters indexeringsteori för att sedan utföra en empirisk studie av de onlinekataloger Gävle musikbibliotek och Örebro stadsbibliotek använde sig av. 79 Norlunds kandidatuppsats uppvisar alltså en hel del likheter med min egen uppsats då vi båda utgår från samma sorts indexeringsteorier för att sedan följa upp detta med en empirisk studie. Norlund har dock valt att utföra sin empiriska studie i två onlinekataloger som ett par folkbibliotek tillhandahåller och jag har valt att utföra den i Musikwebb. Norlund kunde konstatera att SAB-systemets kontrollerade vokabulär innebär att musikinspelningar åtnjuter olika grader av specificitet beroende på vilken genre dessa kan sägas tillhöra. Enligt Lancasters specificitetsprincip skall indexeringstermerna vara valda så att de representerar innehållet så specifikt som möjligt. I sin undersökning märkte dock Norlund att detta inte alltid följdes av dem som tilldelar musikinspelningarna ämnesord. Norlund efterfrågade även utökade möjligheter att kunna avgränsa sökningar med utgångspunkt från andra kriterier som form, geografisk lokation samt årtal då även dessa kan skapa specificitet. Ytterligare ett problem Norlund 75 Bally, Hans & Evasdotter, Astrid 2003, s. 24f. Bally, Hans & Evasdotter, Astrid 2003, s. 39. 77 Bally, Hans & Evasdotter, Astrid 2003, s. 46. 78 Bally, Hans & Evasdotter, Astrid 2003, s. 60. 79 Norlund, Åsa 2005, s. 5f. 76 23 fann var att endast hela album tilldelas en genre, men, som Norlund säger, ”det är inte ovanligt att ett album innehåller låtar med olika genretillhörighet”. 80 Annat som ej överensstämde med Lancasters indexeringsteorier var att indexeringen ej varit tillräckligt uttömmande, det vill säga att för få indexeringstermer använts vid beskrivningen av innehållet på skivor och att det förekommer synonymer i den kontrollerade vokabulären. Något som det, enligt Lancaster, ej skall göra utan en namnform skall anses vara standard och de andra formerna skall hänvisa till denna standard.81 Norlund fann även inkonsekvens i indexeringen vid det ena biblioteket då skivor av samma artist och inom samma genre tilldelats olika termer. Detta, konstaterade Norlund, kan inverka negativt för recall-värdet.82 I sin slutdiskussion kom Norlund fram till slutsatsen att ”det viktiga i detta sammanhang är att hitta relevanta termer som på ett bra sätt representerar musikinspelningen istället för att fastna i diskussioner om dessa relaterar till ett ämne i traditionell mening eller ej.” 83 Precis som framkommit i andra studier anser också Norlund att allmusic kan vara behjälplig vad gäller att ge användarna en mer användarvänlig service. Norlund förespråkar även att indexeringsprocessen skulle vara behjälpt av att en indexeringspolicy konstruerades.84 80 Norlund, Åsa 2005, s. 16ff. Norlund, Åsa 2005, s. 22. 82 Norlund, Åsa 2005, s. 24. 83 Norlund, Åsa 2005, s. 33. 84 Norlund, Åsa 2005, s. 33f. 81 24 5. Teoretisk bakgrund Under denna rubrik avser jag att presentera och förklara ett antal grundläggande termer man bör ha i åtanke vid indexering. Avsnittet behandlar dels vad som bör göras för att användarna ska kunna bruka ett system på ett så bra sätt som möjligt och dels vad som bör undvikas vid indexering. Det vill säga, hur man undviker att indexera det som ska indexeras på ett felaktigt sätt. 5.1 Katalogiseringsregler År 1876 skapade Charles Cutter grundregler för att användarna ska kunna återvinna de dokument de önskar. Syftet med en katalog ansåg Cutter vara att: 1. en användare ska kunna hitta en bok om denne känner till a) författaren b) titeln c) ämnet 2. ett bibliotek ska kunna visa vad de har d) av en viss författare e) inom ett visst ämne f) inom en viss typ av böcker 3. kunna hjälpa till i valet av en bok g) genom dess upplaga h) genom dess karaktär85 Dessa tre regler står sig relativt väl än idag. Dock anser Ross Harvey och Philip Hider att det krävs vissa förändringar för att bättre motsvara dagens krav. För att Cutters regler ska kunna användas i den virtuella världen anser Harvey och Hider att ett informationsåtervinningssystem bland annat ska klara av att: en användare ska kunna hitta information, oberoende av formatet, där författare, titel, ämne eller andra karaktäristiska är kända kunna visa upp vilken information som finns tillgänglig av en viss författare, inom ett visst ämne (och närliggande ämnen) eller inom en viss typ av litteratur och hur denna information kan vidarebefordras till användaren86 5.2 Kontrollerade vokabulär En kontrollerad vokabulär kan innebära flera saker. Minimikravet för att en vokabulär ska kunna kallas för en kontrollerad vokabulär är att vokabulären ska vara en begränsad lista som innehåller standardiserade ord eller termer avsedda för indexering eller kategorisering. Anledningen till att det kallas för kontrollerad vokabulär är att det endast är dessa termer som ska användas för att beskriva dokumentets innehåll.87 85 Harvey, Ross & Hider, Philip 2004, s. 11. Harvey, Ross & Hider, Philip 2004, s. 12. 87 Hedden, Heather 2008, s. 33. 86 25 Termen kontrollerade vokabulär brukar delas upp i tre större grupper; ämnesordslistor, klassifikationssystem och tesaurer. Ämnesordslistorna är den enklaste formen av dessa tre då det med en ämnesordslista kan vara svårt att särskilja hierarkiska nivåer samt relationer mellan de olika termerna i den kontrollerade vokabulären.88 De flesta kontrollerade vokabulärer omfattar funktionen att kunna se föredragna termer istället för en annan term.89 Beroende på språket kan detta kallas för USE eller ANV där de hänvisas från en term vilken ej får användas som godkänd term. Anledningen till detta är att förhindra att synonymer finns med i den kontrollerade vokabulären.90 Syftet med att använda en kontrollerad vokabulär vid indexering och informationsåtervinning är att utöka möjligheterna för konsekvent kategorisering. Tanken är även att det ska bli lättare för användarna att finna relevanta termer som kan representera den information användaren söker. Än mer användbart kan det bli om det är flera indexerare som ska kategorisera informationen i databasen. 91 En kontrollerad vokabulär behöver dock underhållas. Vissa termer kan bli obsoleta och andra termer kan behöva infogas i vokabulären. Det är då viktigt att det finns rutiner för hur sådant sker.92 Det är även viktigt att anpassa termerna för målgruppen. Är användarna av den kontrollerade vokabulären lekmän kan termen frimärkssamlande vara att föredra framför termen filateli. Är däremot användarna av vokabulären forskare är i regel den mer vetenskapliga termen att föredra.93 Ett alternativ till indexering med hjälp av en kontrollerad vokabulär är att nyttja en okontrollerad vokabulär, till exempel en så kallad folksonomi. Ett problem med indexering när man väljer att inte bruka en kontrollerad vokabulär för indexering är att både precision och recall-värde kan sjunka avsevärt då det inte sker någon synonymkontroll. Användarna måste då ha i åtanke de eventuella synonymer som kan förekomma i systemet. Ett annat problem vid indexering med hjälp av naturligt språk är att många av sökträffarna kan te sig irrelevanta för sökningens syfte.94 I tidskriften The Indexer nämnde Jane A. Myers ett problem vad gäller indexering av musik. Svårigheten är att en genre ibland inte blir dokumenterad innan genren redan hunnit bli passé, då det är vanligt att nya genrer snabbt skapas inom populärmusiken. Detta ställer högre krav på att indexerarna, samt de som utvecklar den kontrollerade vokabulären, håller sig à jour med den nya musiken.95 I samband med Harry Price slutsatser av den enkätundersökning han utförde kom han fram till att bibliotekarierna borde försöka att bli bättre på att hålla sig à jour med nya trender och ett sätt att lösa detta skulle vara att uppmuntra till samarbeten bibliotek emellan.96 Hellsten & Rosfelt, som utvecklat en handledning i ämnesordsindexering på uppdrag av SAB:s kommitté för katalogisering och klassifikation, framhäver att nya ämnesord måste kontrolleras med hjälp av exempelvis uppslagsverk, ordböcker, handböcker och andra kontrollerade vokabulär. Det är också viktigt att kunna upptäcka synonymer och att vara säker på att orden får rätt form och används på rätt sätt. Att rådfråga ämnesspecialister kan också vara en lösning för att få rätt ämnesord.97 88 Lancaster, F. W. 2003, s. 19. Hedden, Heather 2008, s. 33. 90 Benito, Miguel 2001, s. 261. 91 Hedden, Heather 2008, s. 33. 92 Benito, Miguel 2001, s. 271. 93 Lancaster, F. W. 1986, s. 61. 94 McKnight, Mark, Griscom, Richard & Young, J. Bradford 1989, s. 717f. 95 Myers, Jane A. 1995, s. 270. 96 Price, Harry 1985, s. 48. 97 Hellsten, Unn & Rosfelt, Margareta 1999, s. 30. 89 26 En mer avancerad form av en kontrollerad vokabulär är tesauren. En tesaurus är en sorts ordbok som anger synonymer och alternativ till de olika termerna.98 Tesauren är uppbyggd så att indexeringstermerna är ordnade såväl alfabetiskt som systematiskt. Under var och en av dessa termer anges korshänvisningar och närbesläktade termer.99 Mellan de olika termerna finns det tre typer av samband. Det är dels preferenssamband som hänvisar från en term som inte är godkänd till den föredragna termen. Det kan bero på att termen är en synonym term, att det är en antonym term, att det är en förkortning eller att termen kan stavas på olika sätt. Den andra sortens samband är ett hierarkiskt samband. Det hänvisas då till en bredare eller smalare term. Den tredje sortens samband är släktskapssambandet. Denna typ av samband är något mer komplicerat än de föregående relationerna. Några exempel på släktskapssamband är yrke – de yrkesverksamma (undervisning – lärare), termer som blir relaterade utifrån dess egenskaper (regn – fuktighet), handling och konsekvens (nazivåld – våldsoffer), delar av helheten och helheten (dörrar – hus).100 Som synes är en tesaurus avsevärt mer avancerad än en kontrollerad vokabulär i form av en ämnesordslista där de standardiserade termerna endast återges i alfabetisk ordning, det vill säga utan att ange några hierarkiska samband. Detta innebär även att själva arbetet med att bygga upp en tesaurus kräver mer resurser i såväl tid som kunskap.101 Ett vanligt problem vid skapandet av en tesaurus är att termer som borde finnas med i den kontrollerade vokabulären ej blir inkluderade. Andra vanliga misstag är att namnge termer med namn vilka inte är lika passande som andra namn eller att inte ändra på, eller lägga till, termer när så behövs. Utvecklaren av tesaurusen skall även undvika att lägga till termer inom fel facett eller på fel plats inom rätt facett. Många av dessa problem kan undvikas genom att använda sig av många ingångar i form av hänvisningar till närbesläktade termer samt den term vilken är den godkända termen.102 Undviks fallgroparna är en tesaurus i regel bättre vid indexering och återvinning av relevant information. Detta genom att sökningar kan bli mer preciserade och användaren kan få hjälp genom att se relationer mellan termerna samt vad termerna omfattar. Det sistnämnda genom notförklaringar.103 Just notförklaringar kan vara väldigt användbara då de dels kan förklara vad som skall finnas under just den här termen, men även hur termen ska eller inte ska användas. Det kan också hjälpa användaren att undvika bruk av termer vilka kan betraktas vara snarlika synonymer, men det kan även hjälpa användaren att hitta till bättre termer genom att notförklaringen anger vad som ej är inkluderat under denna term och då hänvisa till de bättre termerna, det vill säga som USE brukar användas.104 Varför är det så användbart att använda en tesaurus istället för en vanlig ämnesordslista? För att besvara den frågan väljer jag att citera den dåvarande chefen för tekniska frågor vid Laurie Music Library vid Rutgers University; Harriette Hemmasi: ”Keyword searching is like shining a flashlight in the black hole of information: searchers see only the spot on which their light shines”.105 Med detta avses att det förvisso är bra att ha tillgång till en ämnesordslista. Dock kräver det även att användaren är medveten om hur man tillgängliggör relevant information. Problemet är att en ämnesordslista inte är lika 98 Hedden, Heather 2008, s. 33. Benito, Miguel 2001, s. 259. 100 Benito, Miguel 2001, s. 259f. 101 Benito, Miguel 2001, s. 267. 102 Hemmasi, Harriette 1994, s. 880. 103 Benito, Miguel 2001, s. 267f. 104 Lancaster, F. W. 1986, s. 70f. 105 Hemmasi, Harriette 1994, s. 875. 99 27 behjälplig i de fall där användaren är osäker på vad vissa termer innebär och omfattar. Det är alltså en stor fördel om det finns möjligheter till notförklaringar i systemet. 5.3 Uttömmandegrad Under kategoriseringsprocessen skall indexeraren utröna vad dokumentet behandlar, varför det har blivit tillagt i beståndet samt vilka ingångar till dokumentet det kan förmodas att användarna är intresserade av.106 Vid indexeringsprocessen måste indexeraren via uppställda regler, eller på eget bevåg, avgöra hur många termer ett dokument skall tilldelas. Vid djupare, eller mer uttömmande, indexering används desto fler av de möjliga indexeringstermerna. Ju färre av de möjliga indexeringstermerna som används desto lägre uttömmandegrad. Används endast en enda indexeringsterm är indexeringen inte alls uttömmande.107 Används en hög uttömmandegrad är detta för att det ska vara möjligt att finna dokument där ämnet förvisso förekommer, men där det inte står i fokus. Används en låg uttömmandegrad är det inte möjligt att finna dokument där ämnet förekommer endast ytligt utan bara där ämnet står i fokus. 108 Förutom att det är lättare att återvinna dokument vid en uttömmande indexering ger detta även användarna bättre möjligheter att ana sig fram till vad dokumentet behandlar. 109 När en hög uttömmandegrad används inverkar det oftast positivt på recall-värdet, men det leder förmodligen även till ett lägre precisionsvärde. Med detta avses att antalet återvunna dokument troligtvis kommer att öka, men ökningen behöver inte nödvändigtvis vara av godo då många av dokumenten kan vara irrelevanta för sökningen på grund av att antalet ingångar till dokumentet utökas. Använder systemet sig istället av en låg uttömmandegrad inverkar det oftast positivt på precisionsvärdet, men i gengäld tenderar recall-värdet att sjunka.110 Med detta avses att de träffar användaren får har en tendens att, i högre utsträckning, vara relevanta, men de kan i gengäld vara tämligen få. Kombinationen uttömmande indexering samt specificitet brukar kallas indexeringsdjup. 111 5.4 Collaborative filtering och similarity Collaborative filtering är en funktion vilken innebär att användarna blir presenterade dokument som systemet, av någon anledning, tror att användaren kan anse vara relevanta.112 Den stora fördelen med denna funktion är att den är tämligen enkel att implementera i ett system.113 Syftet med funktionen är att tjänsten ska kunna tipsa andra användare om vad de troligen skulle kunna uppskatta då människor ofta tillförlitar sig på vad andra tycker i samband med att de ska göra sina val. Då det kan finnas miljontals olika produkter kan det bli väldigt svårt för en individ att kunna rådfråga en expert. För att lösa detta problem samlar man istället ihop många användares omdömen och skapar en rekommendation.114 Den kanske mest kända varianten av collababorative filtering i praktiskt användande är Amazons köprekommendationer. Dessa bygger på principen att 106 Lancaster, F. W. 2003, s. 9. Harter, Stephen P. 1986, s. 114. 108 Harter, Stephen P. 1986, s. 114. 109 Lancaster, F. W. 2003, s. 9. 110 Chowdhury, G. G. 1999, s. 70f. 111 Rowley, Jennifer & Hartley, Richard 2008, s. 133. 112 Kleinberg, Jon & Sandler, Mark 2004, s. 569. 113 Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101. 114 Windhager, Eszter P. et al. 2006, s. 1. 107 28 sannolikheten ökar för att en användare ska vara intresserad av vara Y om denne är intresserad av vara X.115 Den största nackdelen med collaborative filtering är att det vanligtvis krävs stora mängder användare för att skapa den data som skall analyseras. Är det för få användare och den datamängd som skall analyseras är för liten blir resultatet inte lika meningsfullt att låta analysera då rekommendationerna kan bli mer slumpmässigt betonade.116 Detsamma gäller med nya produkter då en helt ny produkt ännu inte hunnit bli köpt av, bli utlånad till, eller blivit betygsatt av särskilt många konsumenter. Ett tredje problem är att vissa användares inköpsvanor skiljer sig så mycket från övriga användare att de inte har någon nytta av en dylik funktion, och är det dessutom få användare kan dessa användare skapa rekommendationer vilka snarare stjälper än hjälper.117 Similarity antyder att det finns ett samband mellan ett specifikt dokument och andra dokument. För att finna ett samband kan systemet exempelvis ange vilka andra dokument som hänvisar till detta dokument. En hänvisning till dokumentet antyder att det finns något slags samband mellan ett specifikt dokument och de dokument som hänvisar till detta dokument. Även dessa dokument kan då vara av intresse för användaren. En variant på detta är att systemet utgår från källförteckningen i ett dokument. De dokument vilka finns angivna där, antyder att det finns något slags samband mellan just detta dokument och de dokument som anges i källförteckningen.118 En ytterligare variant på systemets tips till användarna är att utgå från en kontrollerad vokabulär och där hänvisa till vilka överordnade, underordnade eller närbesläktade termer vilka är tillgängliga i systemet. Just detta har dock redogjorts för i avsnittet om kontrollerade vokabulär varför jag inte ytterligare beskriver det här. 5.5 Indexeringsfel Använder sig en informationstjänst av en kontrollerad vokabulär är det viktigt att indexeringen har skötts på ett bra sätt. Att indexera kan vara svårt då det till stor del handlar om subjektivitet snarare än objektivitet. Indexeringsfel kan exempelvis bestå av att en indexeringsterm uteslutits trots att den borde ha blivit inkluderad och vice versa.119 Anledningen till detta kan vara att indexeringen skett för hastigt eller slarvigt. Det är att föredra att en indexerare avsätter lite mer tid i samband med indexeringstillfället än att det uppstår indexeringsfel och alla användare kan få problem med informationsåtervinningen.120 Dock har en indexerare sällan gott om tid när ett dokument skall indexeras. Indexeraren nödgas då fokusera på de viktigaste bitarna av dokumentet och ändå försöka skapa ämnesord vilka reflekterar hela innehållet.121 Även om det finns en kontrollerad vokabulär till hjälp vid indexering kan inkonsekvens uppstå vid indexering av två likvärdiga dokument. Detta kan bero på att två olika indexerare har olika uppfattning om dokumentet eller att en indexerare har olika uppfattning vid två olika indexeringstillfällen.122 Det krävs också att indexeraren har 115 Kleinberg, Jon & Sandler, Mark 2004, s. 569. Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101. 117 Huang, Zan, Chung, Wingyan & Chen, Hsinchun 2004, s. 261. 118 Morville, Peter & Rosenfeld, Louis 2007, s. 160. 119 Harter, Stephen P. 1986, s. 114. 120 Hellsten, Unn & Rosfelt, Margareta 1999, s. 15f. 121 Lancaster, F. W. 2003, s. 24. 122 Lancaster, F. W. 2003, s. 68. 116 29 god kunskap om den kontrollerade vokabulären och förstår vilka termer som bör användas vid vilka tillfällen. Lancaster exemplifierar detta med en berättelse om vad som troligen skulle ske om han skulle låta en grupp oerfarna gymnasieelever indexera några artiklar om medicin. Förmodligen skulle de inleda med att utföra arbetet på ungefär samma sätt som en dator, det vill säga de skulle välja ord vilka är frekvent förekommande i brödtexten samt ord från artikelns titel samt abstract och andra viktiga delar av artikeln. Dessa ord skulle eleverna sedan omvandla till godkända termer genom att använda Medical Subject Headings (MeSH). Lancaster tror att inkonsekvens vid indexering nästintill garanterat skulle uppstå då eleverna troligen kommer att ha problem att finna de korrekta termerna då de saknar tillräcklig medicinsk kunskap samt vilken terminologi som används.123 För indexeraren är det viktigt att förstå vilka termer det är troligt att användarna kommer att välja för att kunna återvinna dokumentet. Lyckas inte indexeraren med detta ökar sannolikheten för att användarens recall-värde kommer att sjunka när denne försöker återvinna dokument vilka är av intresse för sökningen. Det är även viktigt för indexeraren att förstå vad dokumentet handlar om så att termerna, som ska beskriva dokumentets innehåll, blir korrekt valda. Lyckas inte indexeraren med detta ökar sannolikheten för att precisionen sjunker i samband med att användarna försöker återvinna relevanta dokument. Oavsett om det beror på bristande kunskap hos indexeraren eller att ett slarvfel begås, uppstår ett fel vid indexeringen. I förlängningen innebär detta att användarna troligen blir drabbade av indexeringsfelen i samband med sökningarna i systemet.124 När Lancaster evaluerade MEDLARS visade det sig att 10 % av alla problem gällande recall berodde på att en viktig term hade uteslutits vid indexeringstillfället. Uteslutandet av de flesta av dessa termer berodde på rent slarv. Vissa av dem kunde dock bero på att den kontrollerade vokabulären var otillräcklig, till exempel om indexeraren är osäker på vilken term som är den korrekta termen och det saknas bra handledning i systemet, exempelvis i form av notförklaringar. Det kan då vara lätt hänt att indexeraren väljer det enklaste sättet att lösa problemet på och inte bryr sig om att infoga den termen istället för att riskera att välja fel term.125 Ett vanligt fel som kan uppstå när oerfarna indexerare kategoriserar dokument är att de förutom den mest specifika nivån även väljer att tilldela dokumentet de överliggande ämnesorden. Ett exempel på detta är om ett dokument som uteslutande behandlar apelsiner även tilldelas de, förmodligen, närmast ovanstående termerna citrusfrukter och frukter. Att göra på detta sätt innebär att dokument vilka behandlar ämnet citrusfrukter kan bli svåra att återvinna. En bättre lösning på detta är att göra det möjligt att söka på citrusfrukter samt alla underliggande termer.126 För att anknyta det här till musiktermer vore det lämpligt om användarna kunde välja att söka på termen jazz och då söka dels på musikinspelningar som hör hemma i en dylik huvudgenre. Användaren bör samtidigt ha möjlighet att utföra sökningen i undergenrer till ämnesordet jazz och då också kunna få träffar om det finns musikinspelningarna i underkategorin storbandsjazz som kan betraktas vara relevanta för sökningen. 123 Lancaster, F. W. 2003, s. 73. Lancaster, F. W. 2003, s. 85. 125 Lancaster, F. W. 1986, s. 149. 126 Lancaster, F. W. 2003, s. 34. 124 30 6. Resultatredovisning och analys Då tabellerna är tämligen omfattande har jag valt att utföra analysen för respektive sökning i samband med att resultatet för sökningen presenteras. Syftet med detta är att underlätta för läsaren att kunna ta till sig informationen. 6.1 Genren audiobooks 6 oktober 2009 fanns följande album tillgängliga under kategorin audiobooks: Artist Album Agnar Mykle Allan Sherman Allan Sherman Allan Sherman Allan Sherman Allan Sherman Allan Sherman Allan Sherman Allan Sherman Danko Jones Diverse kunstnere Gert Heidenreich Gert Heidenreich Gert Heidenreich Stjernene – Mannen Som Löper Etter Sin Hatt Allan in Wonderland Allan Sherman Live! For Swingin' Livers Only My Name Is Allan My Son, The Folk Singer My Son, The Nut Rhino Hi-Five: Allan Sherman Togetherness The Magical World of Rock Rotkäppchen Brüder Grimm Märchenerzählungen Band 1 Die Geschichte von Kalif Storch H.C. Andersen Märchenerzählungen Band 1 På Gamletun I Europa – Gjesterommet – Mens Tiden Löper Schalk Im Nacken – Frisch Vom Rill Hans Herbjörnsrud Heinz Erhardt Inge und Wolfram Eicke und Dieter Faber Jeff Foxworthy Johan Borgen Kalle Sändare Kjell Askildsen Martin Lawrence Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Antal spår 2 10 19 22 22 10 24 5 22 6 3 25 15 18 3 4 Der Notenbaum 20 Games Rednecks Play Kaprifolium – Kråkene Guldkorn Carl Lange Funk It Die Erfolgsstory der No Angels Die Erfolgsstory von Beyoncé Knowles Die Erfolgsstory von Blue Die Erfolgsstory von Britney Spears Die Erfolgsstory von Christina Aguilera Die Erfolgsstory von DJ Bobo Die Erfolgsstory von Eminem Die Erfolgsstory von Jeanette Biedermann Die Erfolgsstory von Jennifer Lopez Die Erfolgsstory von Justin Timberlake 12 2 13 1 14 20 22 22 11 20 12 11 22 22 22 31 Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Star Hörbuch Tarjei Vesaas Various Artists Wumpscut Die Erfolgsstory von Robbie Williams Die Erfolgsstory von Sarah Connor Die Erfolgsstory von Scooter Die Erfolgsstory von Shakira Die Erfolgsstory von Yvonne Catterfeld Hesten Frå Hogget – Vesle-Trask – Peparkorn – Det Snör Og Snör Gebrüder Grimms Märchen Sammlung Body Census Totalt antal spår 12 22 20 11 22 4 3 12 562 Tabell 6.1. En lista över de album som återfanns under kategorin audiobooks. Vad som stod i fokus för denna testsökning var att studera optimeringskriterierna precision samt exklusivitet. Ovanstående skulle ske genom att undersöka hur många album som kan betraktas vara relevanta vid tillfällen då användaren efterfrågar ljudböcker i kategorin audiobooks och hur hög precision som kan uppnås vid dylika sökningar. Kriteriet exklusivitet undersöktes genom att se vilka, om några, problem vad gäller indexeringsval som uppstod gentemot kategorierna dokumentär samt komedi. I kategorin audiobooks fanns totalt 40 album. Alla dessa album borde dock inte ha blivit kategoriserade med genrebeteckningen audiobooks. Agnar Mykles album är mycket riktigt en ljudbok. Allan Shermans åtta album innehåller däremot uteslutande sånger och skämt varvid dessa inspelningar snarare torde vara hemmahörande i kategorin komedi. Danko Jones, Rotkäppchen samt de tre album där Gert Heidenreich läser upp sagor av bland annat H.C. Andersen och bröderna Grimm är samtliga bra exempel på ljudinspelningar som bör kategoriseras med genrebeteckningen audiobooks. Det finns dock ett par kommentarer vad gäller dessa inspelningar. Som synes heter ljudboken med sagor av bröderna Grimm Märchenerzählungen Band 1 vilket antyder att det finns mer än ett band av deras sagor. I Musikwebbs bestånd finns det också ett andra band med fler av bröderna Grimms sagor. Dock har detta band, av någon anledning, blivit indexerat som övrigt. Även när det gäller H.C. Andersen antyds att det finns mer än en volym. Band 1 är dock den enda volym vilken tillgängliggjorts på Musikwebb. Rotkäppchen är som sagt en ljudbok, men noterbart är att det inte anges någon artist utan enbart att det är Diverse kunstnere vilka varit inblandande i inläsandet av denna ljudbok. Att en artist/grupp är okänd förekommer då och då på musikinspelningar. Dock har Musikwebb använt sig av principen en artist/grupp per album. Detta har medfört att exempelvis Rotkäppchen inte blivit tilldelad några artister. Det har även inneburit att på album med flera olika artister har det inte angivits några specifika artister för varje låt, något som inte underlättar för användarna om de vill återvinna låtar som är inkluderade på album med flera olika artister. Hans Herbjörnsrud, Johan Borgen och Kjell Askildsen har blivit indexerade inom rätt kategori, men Heinz Erhardt, Jeff Foxworthy, Kalle Sändare och Martin Lawrence borde snarare placeras i kategorin komedi. Der Notenbaum är ett bra exempel på musik för barn och borde därför ha indexerats med ämnesordet barnmusik. Av de album jag hittills redogjort för har de inte varit några problem att utröna vilka ämnesord som borde ha använts för att beskriva musikinspelningarna. Att det trots det 32 återfinns så många album inom denna kategori som borde ha placerats inom andra kategorier är ett tecken på dålig indexering snarare än bristande exklusivitet mellan klasserna. Vad gäller den tyska serien Star Hörbuch är det dock svårare att avgöra i vilken kategori dessa borde vara hemmahörande. Att placera dem i kategorin audiobooks innebär förvisso inget indexeringsfel. Frågan är dock vilken kategori de bör placeras i; audiobooks eller dokumentär? Att de är ljudböcker råder det ingen tvekan om, men var och en av dessa böcker är utöver att vara en ljudbok också en dokumentär om en artist eller en grupp. Råder det tvivel om vilken kategori ett dokument bör placeras i är det ett tecken på att systemet inte använder sig av exklusivitet vid skapandet av ämnesord.127 Tarjei Vesaas album är en ljudbok innehållande fyra noveller. Gebrüder Grimms Märchen Sammlung är också det en ljudbok. Dock har enbart de tre ljudspåren vilka innehåller sagan Rotkäppchen blivit kategoriserade som audiobooks. Resterande 15 spår på albumet/sagosamlingen återfinns, märkligt nog, i kategorin övrigt. I likhet med andra inspelningen av Rotkäppchen saknas det även här korrekta artister angivna. Artisterna kallas dock här Various Artists istället för Diverse kunstnere. Det avslutande albumet, Body census, av gruppen Wumpscut borde definitivt inte ha placerats i denna kategori då detta bands musik kan betraktas vara electromusik. Att albumet blivit placerat inom denna kategori beror förmodligen på slarv från indexerarens sida. Av de 40 album vilka kategoriserats med genrebeteckningen audiobooks är det enbart 11 album som definitivt hör hemma inom denna kategori. Ytterligare 15 album går att placera inom denna klass, men de hör också hemma i en annan klass i systemet. Hela 14 album har blivit tilldelade en helt felaktig genrebeteckning. Jag skrev i metodavsnittet att jag valt kategorin audiobook, som urval för en av mina testsökningar med anledning av att ljudinspelningar i denna kategori bör vara relativt lätta att indexera. Till skillnad från de flesta musikinspelningar ansåg jag att det torde vara sällsynt att en ljudbok har inslag av flera olika kategorier av de kategorier vilka är tillgängliga i Musikwebb. Trots detta har alltså 35 % av albumen placerats i kategorin audiobooks trots att de inte hör hemma i denna kategori, något som helt klart kan betraktas vara ett problem. Dels är det ett problem vad gäller precisionen inom kategorin audiobooks, men det inverkar även negativt på recall-värdet inom kategorierna komedi och dokumentär. Än mer problematiskt blir det vid en jämförelse med tabell 6.3 där det framgår att vid undersökningsdatumet för denna sökning inte fanns några spår i kategorin dokumentär och endast 42 spår i kategorin komedi. Det fanns alltså avsevärt fler spår i kategorin audiobooks som borde vara hemmahörande i kategorierna dokumentär och komedi än vad som återfanns i dessa två kategorier. Utifrån det urval jag gjort anser jag att indexerarna inte lyckats särskilt väl med indexeringen inom denna kategori. Med precision avses hur väl användaren lyckas undvika irrelevant dokument, i det här fallet musikinspelningar som inte är ljudböcker, samtidigt som denne återvunnit relevanta dokument, det vill säga ljudböcker.128 Använder sig användaren av en genresökning kommer precisionen att bli låg då många av de dokument som återvinns kanske inte alls kan betraktas vara relevanta. Ytterligare en aspekt som kan inverka negativt på precisionen är att det inte finns någon möjlighet att filtrera på språk. Ingen av de ljudböcker som kan återvinnas inom denna kategori är på svenska och endast ett album är på engelska. I urvalet för denna testsökning uppvisade Musikwebb klara och tydliga brister vad gäller exklusivitet mellan klasserna 127 128 Ranganathan, S. R. 1989, s. 160. Rowley, Jennifer & Hartley, Richard 2008, s. 294. 33 då det dels förekom många ljudböcker som lika gärna kunde ha blivit placerade i kategorin dokumentär. Det förekom även många musikinspelningar som snarare torde höra hemma i kategorin komedi. Att det fanns så många indexeringsfel innebär att precisionsvärdet blir tämligen lågt om en användare efterfrågar ljudböcker och använder sig av en genresökning. Dessa indexeringsfel medförde i sin tur även att recall-värdet skulle sjunka avsevärt om en användare skulle bruka genresökning för att återvinna musikinspelningar i kategorierna komedi och dokumentär. 6.2 Sökordet Christmas Följande är det resultat som framkommit vid de fyra sökningar som utförts hos Musikwebb där ordet Christmas ska ha funnits med i spår- eller albumtiteln: Genre / Datum 20081124 20090311 20090511 20090824 0 0% 0 0% 0 0% 4 0% ambient 2 0% 2 0% 2 0% 2 0% audiobooks 58 1% 58 0% 58 0% 175 1% barnmusik 25 0% 27 0% 28 0% 127 1% blues 332 3% 359 3% 359 3% 378 2% country 48 0% 58 0% 58 0% 95 0% dance 1 0% 1 0% 1 0% 32 0% electronica 105 1% 116 1% 116 1% 149 1% folkmusik 106 1% 200 2% 200 2% 218 1% gospel 38 0% 40 0% 40 0% 55 0% hiphop 472 4% 540 4% 579 4% 673 4% jazz 207 2% 207 2% 184 1% 370 2% julmusik 2153 20% 2405 18% 2477 19% 2878 15% klassisk 69 1% 0 0% 0 0% 0 0% komedi 22 0% 22 0% 22 0% 23 0% körmusik 11 0% 11 0% 11 0% 12 0% latin 14 0% 16 0% 16 0% 17 0% metal 5 0% 8 0% 6 0% 6 0% musicals 4181 40% 4665 36% 4612 35% 4946 26% pop 639 6% 471 4% 507 4% 546 3% pop&rock 197 2% 114 1% 114 1% 162 1% populärmusik 113 1% 163 1% 176 1% 199 1% r&b/soul 1 0% 1 0% 1 0% 21 0% religiös musik 122 1% 182 1% 179 1% 235 1% rock 25 0% 33 0% 33 0% 42 0% soundtrack 7 0% 74 1% 84 1% 160 1% världsmusik 1566 15% 3308 25% 3470 26% 7685 40% övrigt Totalt antal 10519 100% 13081 100% 13333 100% 19210 100% spår Tabell 6.2. En lista över antalet spår inom respektive genre som innehöll ordet Christmas i sin spår- eller albumtitel. Procenttalet anger vilket recall-värde som kunde uppmätas inom respektive genre. 34 Anledningen till att jag genomförde de här testsökningarna var att jag ville undersöka vilket recall-värde en användare kan förvänta sig om den använder sig av genresökning och då väljer kategorin julmusik för att återvinna musikinspelningar vilka innehåller ordet Christmas i titeln. Att använda sig av en kategori med namnet julmusik innebär vanligtvis att det uppstår problem vad gäller exklusivitet. Antalet spår vilka kan betraktas vara hemmahörande i denna kategori, men inte i någon annan kategori, torde vara försvinnande få. Än värre kan det bli om musikinspelningen exempelvis är ett soundtrack från en film där filmen har ett jultema. Det torde då finnas minst tre kategorier dylika spår kan betraktas vara hemmahörande i. Då Musikwebb valt att bruka en kategori vilken kan sägas fungera som en slags samlingskategori för ett flertal olika genrer krävs att det görs ett avvägande om vilken kategori ett visst spår bör betraktas vara främst hemmahörande i. Exklusivitet är dock inte ett krav på en tjänst utan något som kan underlätta vid återvinning av dokument. Vill Musikwebb använda sig av en kategori vilken är tänkt att samla julmusik från olika genrer kan det i gengäld underlätta för användarna när de efterfrågar julmusik. 1876 fastslog Cutter att den föredragna termen är den term det är mest troligt att användarna skulle använda vid sökningen.129 Förväntar sig användarna att all julmusik skall återfinnas i kategorin julmusik innebär detta att det rimligtvis också kan betraktas vara den föredragna termen. Som kan ses i tabell 6.2 används kategorin julmusik sällan för att beskriva musikinspelningar som innehåller ordet Christmas i sin titel. Vid de fyra undersökningar, vilka genomförts under ett tidsspann på nio månader, har mycket få av musikinspelningarna med Christmas i titeln betraktats vara hemmahörande i kategorin julmusik. Skulle en användare förvänta sig att finna alla jullåtar, med ordet Christmas i spår- eller albumtiteln, i kategorin julmusik och använda sig av en genresökning skulle recall-värdet bli så lågt som 1-2 %. Ju färre av de möjliga indexeringstermerna som kan användas för att kategorisera en musikinspelning desto lägre uttömmandegrad. Musikwebb använder sig av endast en indexeringsterm och indexeringen kan då betraktas vara inte alls uttömmande.130 Det är alltså inte möjligt att placera ett spår i kategorin pop samt kategorin julmusik. Detta kan naturligtvis vara en av förklaringarna till att kategorierna klassisk och pop innehåller en stor procentandel av de musikinspelningar som innehåller ordet Christmas i titeln – att låtarna kan betraktas vara jullåtar har indexeraren inte ansett ha någon betydelse och placerat dem i den kategori de normalt sett skulle vara hemmahörande i. Av det totala antalet spår som har ordet Christmas i titeln återfanns i kategorierna klassisk och pop sammanlagt 60 %, 54 %, 54 % och 41 % av musikinspelningarna i samband med de undersökningar som genomförts. Den tredje av de kategorierna med en hög procentandel av dessa låtar är kategorin övrigt. Nyss nämnda kategori har stadigt ökat från 15 % vid första undersökningen till hela 40 % vid den senaste undersökningen. Att ha en sådan stor andel i en kategori där musikinspelningar endast bör placeras vid tillfällen då det inte finns någon annan lämplig kategori för dem anser jag vara anmärkningsvärt då det helt klart finns ett lämpligt ämnesord att tilldela musikinspelningarna. Att kategorin julmusik inte används på ett sådant sätt som åtminstone jag förväntat mig råder det ingen tvekan om. Utöver detta kan man ställa sig frågande till på vilket sätt kategorin övrigt används. Jag tror inte att det skulle lösa problemen, men det skulle förmodligen underlätta för användarna om Musikwebb 129 130 Lancaster, F. W. 1986, s. 61. Harter, Stephen P. 1986, s. 114. 35 kunde motivera sin val genom att exempelvis använda sig av notförklaringar och på så sätt beskriva hur de olika kategorierna bör användas. Vad som tydligt framgår i samband med dessa testsökningar är att kategorin julmusik inte kan betraktas vara en alltför lämplig kategori att leta i då användaren vill finna så mycket julmusik som möjligt. Vid en jämförelse med figur 6.3 framgår att det enbart i kategorin pop finns fler spår med ordet Christmas i titeln än vad det finns spår totalt i kategorin julmusik. Att ha med en sådan här kategori i vokabulären innebär även att det finns brister vad gäller exklusivitet då musikinspelningarna vanligtvis kan betraktas vara hemmahörande i flera olika kategorier. Utifrån analysen anser jag det vara tveksamt om genren julmusik alls bör förekomma. Dels därför att den inte kan betraktas vara exklusiv, men än mer därför att recall-värdet blir så lågt eftersom användarna inte kommer att hitta mer än en bråkdel av låtarna med Christmas i titeln i kategorin julmusik. 6.3 Det totala beståndet Följande är antalet undersökningsdatum: Genre / Datum ovrigt acapella alternativ ambient americana audiobooks avantgarde barnmusik big band blues boogie woogie cabaret country country/rock dance dokumentär electronica etnisk musik flamenco folk folkmusik folk/pop folk/rock gospel hiphop jazz spår som återfunnits i respektive genre vid angivet 20070521 20080418 20081122 20090511 20090930 20091006 74270 10 10 10 10 10 10 1279 179 263 275 309 1979 1979 87 238 263 263 668 668 76 491 458 390 601 562 979 979 979 993 994 994 4886 7074 5507 8443 33354 34159 67 67 67 67 67 1926 4640 5542 8452 41522 41834 31 31 31 31 32 32 228 330 330 330 345 345 8466 21537 25308 29157 50109 51809 10 10 10 10 10 10 1929 8894 16213 25761 71805 73537 5 5 0 0 0 4776 7471 11348 13634 65778 67153 357 1314 1288 1331 1907 1907 17 17 29 42 45 45 26 26 26 26 26 9621 13960 16806 19527 39563 40126 3968 4607 4623 4793 4953 4944 605 1071 1204 1202 1273 1281 685 3117 4579 5804 8797 8957 2234 13178 16296 25888 65217 67080 36824 64020 73424 92351 169148 171969 36 julmusik klassisk komedi kyrkomusik körmusik latin metal musicals pop pop&rock populärmusik ragtime reaggae reggae r&b/soul religiös musik rock rockabilly salsa soundtrack spiritual string swing tango trad. dance trad. jazz visor världsmusik övrigt Totalt antal spår 2336 83470 248 1246 735 1456 427 215858 5223 3498 55 3205 3599 30754 167 27 2493 352 630 69 1546 163 2149 1621 12233 527003 2465 136234 1909 356 1450 5049 6192 506 321744 158451 20542 41 22 405 13146 4199 54703 193 8 8886 410 665 69 1574 174 2207 6785 17998 919733 1882 184931 1058 333 1241 5852 8690 2532 400555 152221 22085 55 1724 201170 53 333 1335 7562 13670 3692 521151 146404 24950 55 2125 296766 42 293 1355 13612 26501 5975 629785 219980 46710 55 2145 300288 42 293 1355 14020 27344 6057 643115 225618 47338 55 272 14726 2088 81881 193 18 10835 313 665 69 1664 174 2192 8912 58832 1148890 328 26266 3106 128567 181 18 14297 348 653 75 1643 174 2192 15525 124796 1479082 396 48577 10863 218933 197 17 33286 347 637 156 1623 174 2093 155530 267297 2541528 396 48974 11238 229794 197 17 33765 347 637 142 1623 174 2093 160085 275150 2601796 Tabell 6.3. En lista över antalet spår inom respektive genre samt det totala antalet spår. Anledningen till att jag valde att föra statistik över det totala antalet musikinspelningar i Musikwebbs bestånd var därför att det kan ge vägledning för att se om kategorierna kan betraktas vara exklusiva gentemot varandra och/eller om Musikwebbs indexerare har valt att följa specificitetsprincipen. Statistiken var även tänkt att vara till vägledning för att kunna avgöra huruvida Musikwebbs vokabulär innehåller tillräckligt många kategorier eller om antalet kategorier är för många, eller för få. Beståndet hos Musikwebb utökas hela tiden och antalet musikinspelningar som tillkommit till beståndet mellan varje testsökning är många. Vissa musikinspelningar har dock blivit inlagda i databasen flera gånger. Detta kan exempelvis bero på att två olika bolag har gett ut samma skiva, att det kommit en nyutgåva av skivan eller att ett misstag har skett. Den senaste och näst senaste undersökningen skedde med endast en veckas mellanrum och under denna tidsperiod tillkom alltså drygt 60 000 spår till Musikwebbs bestånd. 37 Vid den senaste sökningen jag utförde fanns det 2 601 796 spår fördelade på 51 genrer. Detta innebar att snittantalet spår per genre då var drygt 50 000 (51 015,6). Den största av dessa kategorier innehöll 643 115 spår (pop) och den minsta av dessa kategorier innehåller inte ett enda spår (dokumentär). Vad man bör ha i åtanke är att om indexeringstermerna blir för breda kan det medföra problem vid effektiv återvinning då varje term kan täcka in ett stort antal låtar. Träffarna och termerna kan då minska i relevans vid det praktiska användandet.131 Det stora problemet detta medför är att genresökningar ofta blir i princip meningslösa. Det finns i princip ingen möjlighet att bläddra sig igenom så många sidor som ett stort antal av dessa genrer skulle kräva för att användaren ska kunna ta del av hela utbudet inom denna kategori. Musikwebb tycks ha valt att inte använda sig av specificitetsprincipen utan istället begränsat antalet genrer. Detta förfarande kan dock ha en gynnsam effekt vad gäller exklusivitet. Denna term innebär att samtliga genrer ska stå fria från varandra och att det inte ska finnas material som kan placeras i mer än en genre. 132 Ett problem som lätt kan uppstå om genrer överlappar varandra är att det blir svårare för indexerarna att vara konsekventa i sin kategorisering.133 Ju färre genrer desto enklare bör det vara att få genrerna att vara exklusiva gentemot varandra. Tyvärr uppvisas även här stora brister gällande återvinningseffektiviteten. Dels är kategorier som musicals, soundtrack och julmusik inte exklusiva då musikinspelningarna som kan betraktas vara hemmahörande här nästintill per automatik också kan betraktas vara hemmahörande i minst en annan kategori. Vad skiljer exempelvis mellan kategorierna folk och folkmusik? Kategorin folk innehåller endast 26 spår varvid det går att anta att dessa spår tilldelats en genrebeteckning som inte borde existera. Hur avgörs vilken av kategorierna pop, pop&rock och rock som bör väljas? Hur ska användarna kunna veta vilka spår som bör höra hemma i kategorin religiös musik och vilka som snarare är hemmahörande i kyrkomusik? Dessutom torde kategorierna gospel och spiritual innehålla såväl religiös musik som körmusik och var placeras musikinspelningar av kyrkokörer? Körmusik, kyrkomusik eller religiös musik? Som synes använder sig Musikwebb inte av en särskilt hög grad av specificitet samtidigt som många kategorier inte heller verkar vara exklusiva gentemot varandra. Jag anser att det skulle behövas hierarkier, avsevärt mer genrer, och än mer notförklaringar, för att användarna ska kunna nyttja genresökningar på ett bra sätt. Ytterligare effekter bristande exklusivitet får är att recall-värdet riskerar att bli lågt då det närmast kan bero på slumpfaktorn om ett album är kategoriserat som en genre snarare än en annan genre. Likaså kan precisionsvärdet sjunka avsevärt när en genre är för bred. Det finns få möjligheter för en användare att hitta liknande musik om denne hittat en musikinspelning denne gillar i någon av de bredare genrerna. Jag har redan delat ut kritik till kategorin övrigt och här ser man återigen problemet med att bruka en dylik genre. Rimligtvis bör man använda en kategori som övrigt högst sparsamt och endast när det är svårt att placera den i någon av de övriga kategorierna. Musikwebbs indexerare har dock valt att nyttja detta ämnesord till mer än tio procent av musikinspelningarna. Det går inte att dra några andra slutsatser än att detta har skett genom bristfällig indexering eller så klarar inte Musikwebbs vokabulär av att representera musikinspelningarna på ett fullgott sätt. 131 Harter, Stephen P. 1986, s. 114. Ranganathan, S. R. 1989, s. 160. 133 Lancaster, F. W. 2003, s. 79. 132 38 6.4 Konsekvensen av att ej använda auktoritetskontroll Att inte använda sig av auktoritetskontroll medför att många olika namnformer kan bli aktuella för en och samma artist. Vid katalogisering kan det alltså vara bra att använda auktoritetskontroll då detta innebär att det går att nyttja en standardiserad namnform istället för att bruka det namn som för stunden verkar vara mest passande när katalogisatören ska infoga musikinspelningen i katalogen.134 Syftet med denna undersökning var att studera vilka problem som kan uppstå vad gäller recall samt om det finns en hög sannolikhet för att det kan uppstå problem på grund av att Musikwebb har valt att ej använda sig av auktoritetskontroll. Som kan ses i tabell 6.4 kan det lätt uppstå fel, särskilt om katalogisatören ser fel på en nolla och ett o. Fast ett än enklare misstag är att använda en gemen istället för en versal och vice versa vid katalogiseringen av två olika musikinspelningar. Nedan följer de artister/grupper som i urvalet återfanns minst en gång för mycket i urvalet: A Balladeer a balladeer B. B. King B B KING B Crew feat. Barbara Tucker, Dajae, Ultra Nate and Mone B Crew Feat. Barbara Tucker, Dajae, Ultra Nate And Mone Cab Calloway Cab Calloway & His Orchestra Cab Calloway And His Orchestra Cab Calloway and His Orchestra Cab Calloway Orchestra Earl 16 Earl ”16” Daley Fab 5 Fab-5 G Club G Club Presents Banda Sonara G Club Presents Banda Sonora H2O H20 I Barocchisti & Diego Fasolis I Barocchisti, Diego Fasolis J Dilla (aka Jay Dee) J Dilla aka Jay Dee J. Hunsberger J Hunsberger 134 K. J. Yesudas K J Yesudas L14,16 L14,16 (Axel Schlosser, Steffen Weber, Rainer Boehm, Arne Huber, Lars Binder) La Barberia Del Sur La Barbería Del Sur M. Pokora M Pokora M. Rodriquez M Rodriguez M. Ward M Ward N30 N3O Nabeel Shuail Nabeel Shuiel Nach Nach Scratch Qbo QBO R. Kelly R Kelly R. Kelly & Jay Z R. Kelly & Jay-Z R. W. Hampton R W Hampton Vellucci, Sherry L. 2001, s. 541f. 39 U. Brown U Brown U-Cef U-cef Václav Neumann Václav Neumann & Czech Philharmonic Orchestra WADDIE MITCHELL Waddie Mitchell X x X Ray Pop X ray pop Zafer Gündodu Zafer Gündogdu Åsne Valland Åsne Valland Nordli Tabell 6.4. En lista över de namn som förekom fler än en gång inom urvalet för min studie. Den praktiska konsekvensen av att inte använda sig auktoritetskontroll i Musikwebb är bland annat att det tar längre tid att bläddra sig fram bokstav för bokstav då vissa artister kan förekomma ett flertal gånger. Dessa upprepade namn tar helt enkelt upp onödig plats i databasen. Vad som är mer problematiskt är att recall-värdet kan försämras. Som angavs i metodavsnittet förekom, på en av musikinspelningarna, namnformen Haakan Hellstroem istället för det korrekta Håkan Hellström Söker en användare på Håkan Hellström återvinns samtliga musikinspelningar där hans namn är benämnt som Håkan Hellström. Har hans namn däremot, på någon eller några av hans musikinspelningar, blivit Haakan Hellstroem kommer dessa inte att återvinnas. Under undersökningen lade jag märke till att resultatet kan delas upp i fyra delar beroende på vilken typ av fel som uppstått, varför det har uppstått och hur problematiskt felet är. Den första delen är de namn vilka enbart skapar en extra, och onödig, ingång. Dessa är exempelvis X – x och A Balladeer – a balladeer. Det enda som skiljer dem åt är att det vid det ena exemplet använts versal i början av namnet och i det andra exemplet har en gemen använts. Dylika exempel påverkar inte återvinningen alls då bägge namnformerna är en ingång till samma musikinspelningar. Den andra typen av exempel är de där det dels skapats en extra ingång, men där problemet även kan inverka negativt på återvinningseffektiviteten. Dessa exempel är de där ett eller flera skiljetecken används i namnet. Exempel på detta är R. Kelly – R Kelly och J Dilla (aka Jay Dee) – J Dilla aka Jay Dee. Det finns här en viss risk för att återvinningen ska försämras. Hur stor risken är beror på om användaren brukar skiljetecken vid sökningar. Gör denne det blir risken väldigt hög och gör användaren inte det innebär denna typ av exempel att det enbart skapats en extra ingång i onödan. Den tredje typen av exempel är de där ett eller flera namn tillkommit. Detta innebär dels en extra ingång, men också en högre risk för att återvinningseffektiviteten försämras. Huruvida återvinningseffektiviteten försämras beror på vilket namn användaren väljer att söka på. Exempel på detta problem är Václav Neumann – Václav Neumann & Czech Philharmonic Orchestra. Anledningen till att Václav Neumann återfinns på den här listan är att även de musikinspelningar vilka återfanns under hans eget namn var inspelade tillsammans med Czech Philharmonic Orchestra. Ett annat exempel är Cab Calloway. En del av de musikinspelningar som återfanns där Calloway stod som soloartist var i själva verket med Cab Calloway and His orchestra. Är användaren intresserad av att återvinna alla musikinspelningar med Cab Calloway and his Orchestra, men inga andra musikinspelningar, är detta ej möjligt. Var och en av 40 ingångarna Cab Calloway, Cab Calloway & His Orchestra, Cab Calloway [A/a]nd His Orchestra och Cab Calloway Orchestra leder till olika musikinspelningar trots att samtliga av dessa ingångar borde leda till samma bestånd. Problemet gäller dock med undantag för de musikinspelningar som återfanns under namnet Cab Calloway och där det verkligen var soloartisten Cab Calloway som åsyftades. Den fjärde typen av exempel är de där en extra ingång tillkommit, men där risken för att återvinningseffektiviteten försämras är väldigt hög. Exempel på när detta förekommer är H2O – H20 och Nabeel Shuail – Nabeel Shuiel. Det första exemplet bygger på att siffran noll och bokstaven O kan se snarlika ut. Det andra exemplet torde bero på att namnet är översatt från det arabiska skriftspråket och att översättningarna skiljer sig åt. Vad gäller dylika problem är det väldigt svårt för användaren att undvika ett försämrat recall-värde. Med utgångspunkt ur denna testsökning kunde jag notera att det fanns vissa problem som uppstått då auktoritetskontroll på Musikwebb saknas. Den stora majoriteten av namnen var dock, utifrån urvalet, unika. Likväl fanns det exempel på namnformer som kommer att innebära recall-problem för användarna. I värsta fall kommer användaren nästan garanterat att gå miste om vissa av musikinspelningarna då en helt felaktig namnform använts. I lindrigaste fall, men där det likväl innebar ett problem, skapas enbart en extra ingång. 41 7. Diskussion och slutsatser Jag har valt att inleda detta avsnitt med att repetera mitt valda syfte samt mina frågeställningar då det är vad detta avsnitt är tänkt att behandla och besvara. Syftet med denna studie är att undersöka den ämneskategorisering som har utförts på ett urval av de ljudfiler Musikwebb tillhandahåller i sitt bestånd, samt Musikwebbs kontrollerade vokabulär. Syftet är även att studera på vilket sätt ämneskategoriseringen samt sökfunktionerna inverkar på återvinningseffektiviteten. Syftet är också att resonera om vilka förändringar jag anser skulle gynna Musikwebb vad gäller återvinningseffektivitet och ämneskategorisering. För att konkretisera syftet har jag valt följande frågeställningar: Om det finns några problem vad gäller ämneskategorisering i det urval jag gjort för mina testsökningar, vilka är då dessa problem? Om det utifrån mina testsökningar framkommer att det behövs förändringar av Musikwebbs kontrollerade vokabulär, vilka är då dessa förändringar jag anser behövs? Jag anser att användarna lätt och effektivt ska kunna finna de musikinspelningar de själva efterfrågat samt kunna få rekommendationer om musikinspelningar de indirekt efterfrågat. För att detta skall vara möjligt krävs att musikinspelningarna tilldelats ämnesord som kan sägas representera innehållet på ett bra sätt. Musikwebb använder sig inte av uttömmande indexering vilket gör att det blir än viktigare att den enda term musikinspelningarna tilldelas faktiskt är korrekt. Finns det brister i indexeringen sjunker återvinningseffektiviteten. Det är då ett stort problem att termer som existerar i Musikwebbs ämnesordslista dels används på fel sätt, och dels har jag upptäckt att det verkar vara vanligt att termerna ofta inte är exklusiva. Detta medför att det lätt uppstår indexeringsfel vilket i sin tur kan medföra problem för användarna av Musikwebb. I kategorin audiobooks förekom till viss del ljudböcker, men det var även vanligt med musikinspelningar som borde ha indexerats med genretaggen komedi. Det förekom även att ljudböcker, av någon anledning, blivit placerade i kategorin övrigt. Vad gäller kategorin julmusik innehöll den kategorin totalt färre antal låtar än vad som fanns låtar med Christmas i titeln i vardera av kategorierna pop och övrigt. Jag har viss förståelse för om indexeraren tar mer hänsyn till vilken genre det faktiskt är på låten, men jag har svårt att förstå varför musikinspelningar kategoriseras som övrigt när det finns lämpliga genrer att placera dem i. Utifrån sökningarna framkom att det kan innebära problem att beståndet är så stort och att det i snitt per genre finns över 50 000 spår. Innebörden av detta är att specificitetsprincipen inte alls beaktas och genresökningen är i regel att betrakta som ineffektiv. Det är fullt möjligt att det finns användare som faktiskt skulle bläddra igenom de 2 000 sidor med musikinspelningar som motsvarar en kategori med 50 000 spår, men dessa användare torde vara försvinnande få. I realiteten innebär detta snarare att det endast är de kategorier med ett relativt lågt antal musikinspelningar som kan betraktas vara användbara vad gäller effektiv genreåtervinning av Musikwebbs bestånd. Vid en komparativ studie mellan allmusic, Amazon och MP3.com som Pachet och Cazaly utförde visade det sig att allmusic hade 5 huvudgenrer och 531 undergenrer. 42 Amazon hade 18 huvudgenrer och 719 undergenrer. MP3.com hade i sin tur 16 huvudgenrer och 430 undergenrer. Av alla dessa genrer var endast 70 termer gemensamma mellan de tre kontrollerade vokabulären. Inte ens termer som rock och pop var gemensamma mellan de olika vokabulären.135 Med detta menar jag att användarna av en musiktjänst inte kan förväntas inse vad olika termer innebär, och än mindre så vid tillfällen då problemen beror på bristande exklusivitet. Användarna kan svårligen veta vilka spår som har placerats i kategorin religiös musik och vilka som är kategoriserade som kyrkomusik. Dessutom torde kategorierna gospel och spiritual innehålla såväl religiös musik som körmusik och var återfinns musikinspelningar av kyrkokörer? Vilken av kategorierna körmusik, kyrkomusik och religiös musik har ansetts vara den korrekta för en specifik inspelning, och förstår användarna valet som skett? Det är fullt möjligt att nyttja snarlika kategorier, men då bör det finnas tydliga definitioner vad gäller vilka låtar som hör hemma var. Hos Musikwebb gör det inte det, samtidigt som kategorin övrigt brukas flitigt, och då skapas det istället förvirring. Att skapa förvirring, samt ha låga recall-värden, anser jag inte vara ett effektivt sätt att hjälpa användarna att hitta den musik de efterfrågar. Vad gäller auktoritetskontroll har jag under mina testsökningar noterat ett antal problem. Bortsett från de problem som nämnts i samband med resultatredovisningen är andra exempel på problem namnet Yaşar blir ibland till Ya_ar eller Yasar. Yildiz förekommer som Y1ld1z och Yilmaz förekommer som Y1lmaz. De tre sistnämnda exemplen innebär samma problem som jag redogjort för i resultatredovisningen, att arabiska namn kan bli översatta på olika sätt. Ett än värre exempel på vad bristen av auktoritetskontroll medför är alla namnformer CajsaStina Åkerström blivit tilldelad: CAJSA STINA ÅKERSTRÖM, Cajsastina Aakerstroem, CAJSASTINA ÅKERSTRÖM, CajsaStina Åkerström, Cajsastina Åkerström. De tre sistnämnda exemplen innebär tre olika ingångar till samma del av beståndet, men de två förstnämnda skapar däremot ett eget bestånd. CajsaStina Åkerströms musikinspelningar är alltså uppdelade i tre delar hos Musikwebb. För att en vokabulär ska kunna fungera på ett fullgott sätt bör Musikwebbs utvecklare definitivt bruka auktoritetskontroll. Problemet när det gäller att införa och utveckla funktioner i en tjänst är att det medför en kostnad och ett företag brukar vanligtvis vilja gå med vinst. Om Musikwebb väljer att implementera en funktion som kräver en investering på x antal kronor bör avkastningen självfallet överstiga x kronor. Jag tror att en väl fungerande kontrollerad vokabulär skulle ha en mycket god inverkan på återvinningseffektiviteten. Tyvärr är det svårt att skapa en väl fungerande kontrollerad vokabulär. Harrold och Lea var missnöjda med bristerna i dåvarande musiktesaurer och skapade 1991 Musaurus.136 Harrold och Leas tesaurus blev i sin tur kallad för en stor besvikelse när den recenserades i tidskriften The Indexer.137 Ett vanligt problem vid skapandet av en tesaurus är att termer som borde finnas med i den kontrollerade vokabulären ej gör det. Likaså är att namnge termer med namn som inte är det bästa namnet för termen.138 Dessa problem är dock av mindre betydelse vid en jämförelse med de problem Microsoft noterade när MSN Music Search Engine (MMSE) skapades. Totalt bestod deras bestånd då av några hundra tusen låtar och för musikvetarna tog det 30 arbetsår att skapa vokabulären och klassificera musiken. Arbetet utfördes förvisso med hög kvalitet och resultaten blev mycket goda, men kostnaden ansågs vara för hög.139 Tar det 30 arbetsår att kategorisera några hundra 135 Pachet, François & Cazaly, Daniel 2000, s. 1240. Harrold, Ann & Lea, Graham 1991, s. 16f. 137 Christie, Margaret L. 1991, s. 295f. 138 Hemmasi, Harriette 1994, s. 880. 139 Dannenberg, Roger et al. 2001, s. 54. 136 43 tusen låtar innebär det att det inte är möjligt att kunna förvänta sig att Musikwebb ska kunna utföra god manuell kategorisering på sina miljoner låtar. Som kan ses i tabell 6.3 tillkom drygt 60 000 låtar under den vecka som förflöt mellan den nästa sista och sista av mina testsökningar, vem skulle ha tid att indexera 60 000 låtar på en vecka och samtidigt göra ett fullgott arbete? Problemen med att använda sig av manuell klassifikation av stora musikdatabaser insåg även Aucouturier och Pachet. Manuell klassifikation ansåg de vara bra i evalueringssyfte, men det är inte realistiskt att tro att det fungerar i ett mycket omfattande bestånd.140 Det krävs alltså ett visst mått av pragmatism när man indexerar en större samling. Då det inte är realistiskt att förvänta sig att kunna använda manuell klassifikation för att göra en bra klassificering av hela beståndet anser jag att Musikwebb borde göra precis som Spotify och licensiera material från All Music Guide. Att Musikwebb skulle gynnas av att nyttja material från All Music Guide ansåg även informanter i Cederstrand & Hjorths 141 och Lingmans142 uppsatser. Nackdelarna med att licensiera material från All Music Guide är att det skulle innebära ökade kostnader för Musikwebb och det skulle även innebära att klassificeringen inte längre skulle ske spår för spår utan istället artist för artist. I gengäld skulle Musikwebb få tillgång till en stor databas med mängder av information som kan komma till nytta för användarna. Det skulle även innebära att användarna får tillgång till en bra similarity-funktion och kan bli rekommenderade liknande artister. Främst skulle denna lösning innebära att det förhoppningsvis kan leda till att bristerna vad gäller återvinningseffektivitet kraftigt minkar samt att ämneskategoriseringen blir avsevärt bättre. Musikwebb skulle då även kunna få tillgång till en bra vokabulär som är betydligt mer omfattande än deras egen och som dessutom innehåller bra förklaringar till vad som omfattas av kategorin istället för att inte ha någon förklaring alls. En billigare lösning som Musikwebb eventuellt kan förbättra sin återvinningseffektivitet med är funktionen collaborative filtering, som används av bland annat Spotify. Denna funktion innebär att användarna blir tipsade om musikinspelningar som systemet tror att användaren kan anse vara relevanta.143 Den stora fördelen med funktionen är att den är tämligen enkel att implementera i ett system.144 Den största nackdelen med collaborative filtering är att det krävs mycket data för att skapa meningsfulla analyser.145 Det gäller alltså att antalet användare är många, samt aktiva, så att datan som skall analysera och tipsen till användarna kan bli användbara. Är däremot antalet nedladdningar från Musikwebb få är det stor risk att rekommendationerna inte kommer att vara särskilt relevanta. Ett problem gällande collaborative filtering på Musikwebb är att det, genom forskningsresultat, visat sig att denna teknik gynnar musikinspelningar som är populära av mångfalden. Det innebär att musikinspelningar som inte är alltför populära får svårare att hävda sig och dessa riskerar att osynliggöras. 146 I undersökningen TNS SIFO genomförde i slutet av november 2009 beräknades 2,9 miljoner svenskar (37 %) i åldersspannet 9-79 år ha tillgång till Spotify i hushållet. Endast 8 % i denna åldersgrupp sade sig ha tillgång till någon annan musiktjänst i hushållet.147 Hur stor andel av dessa som anser sig ha tillgång till Musikwebb är omöjligt att veta, men det råder inget tvivel om att Spotify har de bättre förutsättningarna att kunna ha nytta av collaborative filtering. Dels har man avsevärt fler användare än vad Musikwebb har och dels har inte Spotify någon gräns på hur många 140 Aucouturier, Jean-Julien & Pachet, François 2003, s. 92. Cederstrand, Klara & Hjorth, Tove 2008, s. 30. 142 Lingman, Emma 2007, s. 27. 143 Kleinberg, Jon & Sandler, Mark 2004, s. 569. 144 Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101. 145 Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101. 146 Aucouturier, Jean-Julien & Pachet, François 2003, s. 91. 147 TNS SIFO 2010, s. 11. 141 44 låtar användarna kan lyssna på. Hos Musikwebb är det upp till de anslutna folkbiblioteken hur många musikinspelningar användarna kan låna samtidigt eller inom ett visst tidsrum.148 Just att det finns en sådan begränsning hos Musikwebb gör att risken ökar för att en collaborative filtering-funktion skapar missvisande resultat. Begreppet återvinningseffektivitet omfattar även hur lätt det är för användarna att kunna ta del av den, för sökningen, relevanta informationen. Brister vad gäller återvinningseffektiviteten handlar dels om indexeringsfel och liknande, men det handlar även om funktioner som kan saknas helt hos en tjänst. En funktion jag anser skulle kunna vara av godo för Musikwebbs användare för effektivare återvinning av information vore att Musikwebb skulle börja använda sig av RSS-flöden. Ett RSS-flöde är till för att distribuera information över Internet vilket innebär att tjänsten skulle skicka ut information samt en länk tillbaka till den ursprungliga källan.149 För användarna innebär detta att de enkelt kan få information om nytillkomna musikinspelningar som tillgängliggörs hos Musikwebb. Om en användare inte vill ta del av information om samtliga nytillkomna musikinspelningar finns en bra lösning för det, och det är att låta sin RSS-läsare filtrera informationen. Den 6/11 2009 utkom gruppen Kent med sitt nya album, Röd. I samband med att detta album tillgängliggjordes på Musikwebb kunde ett RSS-flöde ha skickats ut. Användare A, som instruerat sin RSSläsare att meddela användaren när orden Kent och Röd förekommer i ett RSS-flöde från Musikwebb kunde då ha fått ett meddelande och sedan laddat ner albumet från Musikwebb. Förutom att det är praktiskt för användarna kan det även medföra att den onödiga datatrafiken minskar hos Musikwebb då användare A inte behöver besöka Musikwebb med jämna mellanrum och manuellt söka efter Kents album. När jag, den 3/10 2009, sökte på Google, med sökorden Spotify och playlist, innebar detta 480 000 sökträffar. De av dessa sökträffar som kan betraktas vara relevanta innehåller möjligheter att ta del av andras låtlistor och att själv dela med sig av sina egna låtlistor. Känner man sig ledsen och vill lyssna på bra ”deppmusik” finns det med hög sannolikhet listor med låtar man inte hade en aning om att man skulle gilla och listor med låtar man redan gillar, men inte har skapat en egen lista för. Ska man ha fest om ett par timmar, och vet att man inte har tid att skapa en spellista med partymusik, kan man använda en lista som en annan person har skapat. Denna funktion saknas helt hos Musikwebb. Om en användare skulle försöka att hitta musik för en särskild dag, eller ett särskilt tema, hos Musikwebb vore det endast möjligt om det finns ett album med ett passande namn, exempelvis Absolute Party Hits, i beståndet. Skulle det finnas funktioner där det går att skapa spellistor hos Musikwebb med olika teman skulle det kunna lösa problemet vad gäller exempelvis kategorin julmusik. Indexerarna skulle kunna välja den kategori musiken är främst hemmahörande i, men samtidigt lägga till de juliga låtarna i en jultemalista. Jag anser att Musikwebb är en högst bristfällig musiktjänst. Jag tycker att det är svårt att nyttja sökfunktioner på ett adekvat sätt. Utifrån mitt urval noterade jag att ämneskategoriseringen alltför ofta kunde betraktas vara högst tvivelaktig. Det tar lång tid att bläddra i de olika genrerna och detta beror till stor del på att kategorierna är ospecificerade. Det underlättar givetvis inte heller då flera kategorier inte är exklusiva gentemot varandra så att man kan vara tvungen att bläddra i flera kategorier för att finna passande musik. Det går heller inte att få tips om liknande musik eller artister. Syftet med tjänsten anser jag vara gott, men utförandet är som sagt var högst bristfälligt. 148 149 Musikwebb Basepoint Media 2009b. Fransson, Jonas 2007, s. 171. 45 8. Sammanfattning Jag valde att i denna magisteruppsats evaluera webbtjänsten Musikwebb genom att utföra testsökningar i systemet med utgångspunkt i följande optimeringskriterier: specificitetsprincipen, precision, recall, exklusivitet och auktoritetskontroll. Anledningen till detta var för att skriva en uppsats om Musikwebb som behandlar dess sökfunktioner, indexeringsval och –möjligheter. Följande var mitt valda syfte för magisteruppsatsen: Syftet med denna studie är att undersöka den ämneskategorisering som har utförts på ett urval av de ljudfiler Musikwebb tillhandahåller i sitt bestånd, samt Musikwebbs kontrollerade vokabulär. Syftet är även att studera på vilket sätt ämneskategoriseringen samt sökfunktionerna inverkar på återvinningseffektiviteten. Syftet är också att resonera om vilka förändringar jag anser skulle gynna Musikwebb vad gäller återvinningseffektivitet och ämneskategorisering. Frågeställningarna jag valde för att konkretisera syftet var följande: Om det finns några problem vad gäller ämneskategorisering i det urval jag gjort för mina testsökningar, vilka är då dessa problem? Om det utifrån mina testsökningar framkommer att det behövs förändringar av Musikwebbs kontrollerade vokabulär, vilka är då dessa förändringar jag anser behövs? I den tidigare forskningen om Musikwebb har det, vid intervjuer med bibliotekarier och användare av Musikwebb, framkommit att genreindelningen är svårförståelig och att användargränssnittet inte är alltför bra. Ett önskemål om Musikwebb var att de skulle bli mer inspirerade av allmusic, och även kunna ge rekommendationer om liknade artister. Vad gäller den tidigare forskningen om indexering av musik framkom att de kontrollerade vokabulären om musik ofta innehåller brister i form av bland annat för breda ämnesord, särskilt hos större samlingar. Det framkom också att skapandet av en kontrollerad vokabulär samt kategorisering av några hundra tusen låtar tog 30 arbetsår. Slutsatsen av detta var att det inte var praktiskt genomförbart att använda sig av manuell klassifikation vid samlingar på flera miljoner låtar. Den teoretiska bakgrunden för uppsatsen bestod av Charles Cutters katalogiseringsregler från 1876, en genomgång av hur olika kontrollerade vokabulär (ämnesordslista, klassifikationssystem och tesaurus) kan vara utformade samt vad man bör tänka på vid skapandet av en dylik sådan. Utöver detta beskrevs även termerna uttömmandegrad, collaborative filtering/similarity samt vilka fel som kan uppstå vid indexering. För att evaluera Musikwebb valde jag att utföra fyra olika testsökningar. I den första sökningen granskade jag genren audiobooks och det framkom i denna sökning att det fanns klara och tydliga brister vad gäller exklusivitet mellan klasserna i mitt urval. Detta medförde att recall-värdet riskerar att avsevärt försämras i kategorierna komedi och dokumentär samt att precisionsvärdet blev väldigt lågt i kategorin audiobooks. 46 Den andra sökningen utfördes genom att göra en titelsökning på ordet Christmas för att se om kategorin julmusik var den kategori i vilken de flesta av sökträffarna återfanns. Det visade sig att det endast var 1-2 % av dessa spår som kunde återfinnas i den kategorin julmusik. Bortsett från att inkluderande av en kategori som julmusik kan innebära brister vad gäller exklusivitet mellan genrerna innebär det även att recallvärdet blir väldigt lågt om användarna förväntar sig att finna låtar med Christmas i titeln i kategorin julmusik. Den tredje sökningen bestod av statistik över det totala beståndet för att till viss del se om klasserna kunde betraktas vara exklusiva gentemot varandra samt hur väl Musikwebb beaktar specificitetsprincipen. Det visade sig här att Musikwebbs genrer inte var särskilt specifika, och inte heller kunde genrerna betraktas vara särskilt exklusiva då det kunde nämnas ett antal genrer som verkade vara snarlika varandra. I den fjärde sökningen undersöktes vilken betydelse det har att Musikwebb inte använder sig av auktoritetskontroll. Resultatet kunde delas upp i fyra delar där de som innebar minst problem enbart skapade en extra ingång till beståndet och där de som innebar störst problem med hög sannolikhet orsakar ett sänkt recall-värde för användarna. Det fanns en viss risk för att det kunde uppstå problem vad gäller recallvärdet, men de flesta ingångar till beståndet var korrekta. Vid besvarandet av frågeställningar angavs följande brister vad gäller återvinningseffektiviteten: man tar inte hänsyn till specificitetsprincipen, det förekommer indexeringsfel, det råder bristande exklusivitet mellan genrerna och det saknas funktioner som skulle vara av godo för användarna. För att förbättra återvinningseffektiviteten anser jag att det vore av godo att möjliggöra skapandet av listor i Musikwebb på samma sätt som listor kan skapas av Spotifys användare. Jag tror inte att det är möjligt att använda sig av manuell klassifikation för ett sådant stort och dynamiskt bestånd som vad Musikwebb har så implementationen av en collaborative filtering-funktion torde kunna vara av godo. Nackdelen med en dylik funktion är att den kan medföra försämrad återvinningseffektivitet vad gäller musik som inte är alltför populär bland låntagarna samt att den inte är lika användbar om antalet nedladdningar från Musikwebb är tämligen få. En annan funktion jag tror skulle kunna gynna återvinningseffektiviteten är att använda sig av RSS-flöden då användarna skulle kunna filtrera fram önskad information och genast bli meddelade när en önskad musikinspelning tillgängliggjordes på Musikwebb. Det jag främst anser skulle förbättra Musikwebbs återvinningseffektivitet är dock att licensiera material från All Music Guide och nyttja deras genreuppdelning. Jag anser att det var svårt att nyttja sökfunktioner på ett fullgott sätt och att ämneskategoriseringen alltför ofta är missvisande samt att kategorierna är ospecificerade och ej exklusiva gentemot varandra. Det går inte att få tips om liknande artister eller musik. Allt detta sammantaget gör att det kan vara svårt att hitta önskad musik. Syftet med tjänsten anser jag förvisso vara gott, men utförandet är däremot högst bristfälligt. 47 Källförteckning allmusic (2009). http://www.allmusic.com / About Us, sökord: Freddie Mercury, pop/rock [2009-10-30]. Aucouturier, Jean-Julien & Pachet, François (2003). Representing musical genre: A state of the art. Journal of New Music Research, vol. 32, nr. 1, s. 83-93. Axelsson, Karin (2001). Att beskriva musik. Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2001:96). Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier (1999). Modern information retrieval. Harlow: Addison-Wesley. Bally, Hans & Evasdotter, Astrid (2003). Organisation av pop- och rockmusiksamlingar i Sverige: En värderingsfråga? Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2003:68). Benito, Miguel (2001). Kunskapsorganisation: En introduktion till katalogisering, klassifikation och indexering. 1. uppl. Borås: Taranco. Cederstrand, Klara & Hjorth, Tove (2008). Musikwebb: En undersökning med fokus på urval, service och digitalisering. Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2008:72). Chowdhury, G. G. (1999). Introduction to modern information retrieval. London: Library Association Publishing. Christie, Margaret L. (1991). Book review of Musaurus: A music thesaurus: A new approach to organising music information by Ann Harrold & Graham Lea. The Indexer, vol. 17, nr. 4, s. 295-296. Dannenberg, Roger et al. (2001). Panel: New directions in music information retrieval. Ingår i Proceedings of the 2001 International Computer Music Conference, International Computer Music Association, Havana, Cuba, September 17 – 22, 2001. Andrew Schloss, Roger Dannenberg & Peter Driessen, eds. Av Roger Dannenberg, Jonathan Foote, George Tzanetakis & Christopher Weare. San Francisio, Calif.: Computer Music Association. S. 52-59. Eriksson, Jesper & Freij, Karl-Oskar (2008). Musikklassifikation: En jämförande studie av de tre generella klassifikationssystemen DDC, SAB och UDC. Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2008:70). 48 Fransson, Jonas (2007). Effektivare informationssökning på webben: En handbok i konsten att söka information. Ronneby: HEXA. Harrold, Ann & Lea, Graham (1991). Musaurus: A music thesaurus: A new approach to organising music information. London: Music Press. Harter, Stephen P. (1986). Online information retrieval: Concepts, principles, and techniques. San Diego, CA: Academic Press. Harvey, Ross & Hider, Philip (2004). Organising knowledge in a global society: Principles and practice in libraries and information centres. Wagga Wagga, N.S.W.: Centre for Information Studies, Charles Sturt University. Hedden, Heather (2008). Controlled vocabularies, thesauri, and taxonomies. The Indexer, vol. 26, nr 1, s. 33-34. Hellsten, Unn & Rosfelt, Margareta (1999). Ämnesordsindexering: En handledning. 2. uppl. Stockholm: Avd. för nationell samordning och utveckling, Kungl. bibl. (BIBSAM). Hemmasi, Harriette (1994). The music thesaurus: Function and foundations. Notes, vol. 50, nr 3, s. 875-882. Huang, Zan, Chung, Wingyan & Chen, Hsinchun (2004). A graph model for ecommerce recommender systems. Journal of the American society for information science and technology. vol. 55, nr. 3, s. 259-274. Kleinberg, Jon & Sandler, Mark (2004). Using mixture models for collaborative filtering. Ingår i STOC´04: Proceedings of the thirty-sixth annual ACM symposium on theory of computing, Chicago, Illinois, USA, June 13-15, 2004. László Babai, ed. New York: The Association for Computing Machinery. S. 569-578. Knutsson, Niklas (2007). Musikwebben: Ett alternativ till illegal fildelning? Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Kandidatuppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2007:2). Lancaster, F. W. (1986). Vocabulary control for information retrieval. 2. ed. Arlington, Va.: IRP. Lancaster, F. W. (2003). Indexing and abstracting in theory and practice. 3. ed. Champaign, Ill.: University of Illinois. Lingman, Emma (2007). Musikkonsumtion på Internet: En användarstudie av nedladdningsvanor relaterat till musiktjänster på biblioteket. Umeå: Umeå Universitet. (Magisteruppsats i Biblioteks- och informationsvetenskap, 2007:332). McKnight, Mark, Griscom, Richard & Young, J. Bradford (1989). Improving access to music: A report of the MLA Music Thesaurus Project Working Group. Notes, vol. 45, nr. 4, s. 714-721. Mild, Ulrika (2004). Musik på Internet: Framtiden för bibliotekens musikavdelningar? Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. 49 (Magisteruppsats i Biblioteks- och informationsvetenskap högskolan/Biblioteks- och informationsvetenskap, 2004:120). vid Biblioteks- Morville, Peter & Rosenfeld, Louis (2007). Information architecture for the world wide web. 3. ed. Sebastopol, CA: O’Reilly. Musikwebb, Basepoint Media (2009a). Musikwebb – ladda hem musik från ditt bibliotek. http://musikwebben.btj.se/ [2009-10-06]. Musikwebb, Basepoint Media (2009b). Välkommen till http://musikwebb.shop2download.com / Hjälp [2009-10-06]. nya Musikwebb.se. Myers, Jane A. (1995). Music: Special characteristics for indexing and cataloguing. The indexer, vol. 19, nr. 4, s. 269-274. Norlund, Åsa (2005). Musik och indexering i folkbiblioteken: En analys av ämnesord och indexering i folkbibliotekens onlinekataloger. Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Kandidatuppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2005:3). Pachet, François & Cazaly, Daniel (2000). A taxonomy of musical genres. Ingår i Proceedings of Content-Based Multimedia Information Access conference, RIAO 2000, April 12-14, 2000, Paris, France, vol. 2. Joseph-Jean Mariani & Donna Harman, eds. Paris: C.I.D.. S. 1238-1245. Pachet, François, Westermann, Gert & Laigre, Damien (2001). Musical data mining for electronic music distribution. Ingår i Proceedings: First international conference on web delivering of music (Wedelmusic’01), Florence, Italy, 23-24 November 2001. Paolo Nesi, Pierfrancesco Bellini & Christoph Busch, eds. Los Alamitos, Calif.: IEEE Computer Society Press. S. 101-106. Price, Harry (1985). Subject access to jazz and popular music materials on Library of Congress catalog records. Fontes Artis Musicae, vol. 32, no. 1, s. 42-53. Ranganathan, S.R. ([1967] 1989). Prolegomena to library classification. Vol. 1. 3. ed. Bangalore: Sarada Ranganathan Endowment for Library Science. Rowley, Jennifer & Hartley, Richard (2008). Organizing knowledge: An introduction to managing access to information. 4. ed. Aldershot: Ashgate. Sehr, Andres, Spotify (2009). One year ago today ... http://www.spotify.com/blog/archives/2009/10/07/one-year-ago-today/ [2009-10-30]. Spotify (2009). http://www.spotify.com / Help / About Spotify, / Work with us / Labels and artists, / About / What is Spotify? [2009-10-06]. TNS SIFO [Haraldsson, Ulf] (2010). Spotify och andra musiktjänster på internet. http://www.tns-sifo.se/nyheter-och-press/2,9-miljoner-har-spotify-i-hushaallet [201003-23]. 50 Vellucci, Sherry L. (2001). Music metadata and authority control in an international context. Notes, vol. 57, nr 3, s. 541-554. Windhager, Eszter P. et al. (2006). Iterative algorithms for collaborative filtering with mixture models. Av Eszter P. Windhager, Libertad Tansini, Istvan Biro & Devdatt Dubhashi. http://www.cs.chalmers.se/%7Elibertad/Notanonym-2NoConfData.ps [2009-11-01]. Ztorm (2010). Ztorm’s digital distribution platform features loans and rentals of PC games. http://www.ztorm.com/news/ztorms-digital-distribution-platform-features-loans-andrentals-of-pc-games/ [2010-03-25]. 51 Bilaga 1 – Figur- och tabellförteckning Figur 3.1. Det kvantitativa resultatet vid en sökning indelat i fyra fält utifrån om de är relevanta, irrelevanta, återvunna eller ej återvunna. Tabell 6.1. En lista över de album som återfanns under kategorin audiobooks. Tabell 6.2. En lista över antalet spår inom respektive genre som innehöll ordet Christmas i sin spår- eller albumtitel. Procenttalet anger vilket recall-värde som kunde uppmätas inom respektive genre. Tabell 6.3. En lista över antalet spår inom respektive genre samt det totala antalet spår. Tabell 6.4. En lista över de namn som förekom fler än en gång inom urvalet för min studie. 52