Musikwebb - BADA - Högskolan i Borås

MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP
VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN
2010:21
ISSN 1654-0247
Musikwebb
– En evaluering av webbtjänstens återvinningseffektivitet
ANDRÉAS NORDH
© Författaren
Mångfaldigande och spridande av innehållet i denna uppsats
– helt eller delvis – är förbjudet utan medgivande
Svensk titel:
Musikwebb
–
En
återvinningseffektivitet
Engelsk titel:
Musikwebb – An evaluation of the retrieval effectiveness of
the web service
Författare:
Andréas Nordh
Kollegium:
2
Färdigställt:
2010
evaluering
av
webbtjänstens
Handledare:
Abstract:
The aim of this thesis was to evaluate the music downloading
service Musikwebb regarding its indexing and retrieval
effectiveness. This was done by performing various kinds of
search in the system. The outcome of these searches were then
analysed according to the criteria specificity, precision, recall,
exclusivity and authority control.
The study showed that Musikwebb had several flaws regarding
its retrieval effectiveness. The most prominent cases were the
criteria exclusivity and specificity. Several of Musikwebb’s
classes could be regarded as almost similar and the average
number of songs in each class was over 50 000. As this study
shows, having over 50 000 unique entries in a class results in
problems regarding the effectiveness of the browsing
technique.
The developers of Musikwebb are recommended by the author
to acquire their licensed material from All Music Guide,
including the implementation of the All Music Guide
classification system.
Nyckelord:
Musikwebb, Music Information
Specificitetsprincipen,
Precision,
Auktoritetskontroll
i
Retrieval, Indexering,
Recall,
Exklusivitet,
Förord
Det tycks inte höra till vanligheterna att ett förord inkluderas i magisteruppsatser.
Åtminstone verkar detta inte vara fallet för uppsatser skrivna vid institutionen för
biblioteks- och informationsvetenskap på Högskolan i Borås.
Min uppsats får därmed bli ett av få undantag då det finns några personer jag anser
behöver tackas för dess hjälp under uppsatsarbetets gång; Sofia Larsson, Annika
Larsson och Annika Nordh Jansson.
Sofia Larsson vill jag tacka för att jag, som arbetsmaterial till den här uppsatsen, fritt
kunnat använda den b-uppsats om Musikwebb vi tillsammans skrev under vårterminen
2007. Sofia har även kommit med en rad intressanta och värdefulla synpunkter under
skrivandet av föreliggande magisteruppsats.
Annika Larsson har aldrig studerat biblioteks- och informationsvetenskap. Däremot
använder hon gärna, och ofta, musiktjänster på Internet. Detta har lett till att hon kunnat
bidra med synpunkter inför mina undersökningar. Hon har även agerat bollplank ett
antal gånger åt mig när jag stött på problem vid skrivandet av min magisteruppsats. Jag
vill även passa på att be om ursäkt för alla de gånger jag frångått bollande av idéer och
börjat diskutera indexering. Jag borde naturligtvis inte börjat diskutera indexering då jag
är fullt medveten om att hon är helt ointresserad av detta, för mig, fascinerande ämne.
Annika Nordh Jansson har aldrig studerat biblioteks- och informationsvetenskap. Hon
använder sällan musiktjänster på Internet. Däremot är hon mycket bra på att hantera det
svenska språket. Jag bad henne därför att korrekturläsa valda delar ur min uppsats med
avseende på uppsatsens språkbruk. Att hon tackade ja till att korrekturläsa min uppsats
innebär att uppsatsens innehåll blivit bättre, tydligare, och mer språkligt korrekt, än vad
den redan var.
Jag vill avsluta mitt förord med att rikta ett stort tack till er för att ni inte bara orkat
lyssna och läsa utan även tagit er tid att kommentera innehållet i uppsatsen. Jag hade
kunnat skriva uppsatsen helt utan er hjälp, men det skulle ha tagit längre tid och det
skulle definitivt ha varit mycket tråkigare!
Andréas Nordh
Maj 2010
ii
Innehållsförteckning
FÖRORD.................................................................................................................................................... II
INNEHÅLLSFÖRTECKNING ............................................................................................................. III
1. INLEDNING ........................................................................................................................................... 1
1.1 SYFTE OCH FRÅGESTÄLLNINGAR ........................................................................................................ 2
1.2 AVGRÄNSNINGAR ............................................................................................................................... 2
1.3 DISPOSITION ....................................................................................................................................... 2
2. BAKGRUND ........................................................................................................................................... 4
2.1 MUSIKWEBB ....................................................................................................................................... 4
2.2 ALLMUSIC/ALL MUSIC GUIDE ............................................................................................................ 6
2.3 SPOTIFY .............................................................................................................................................. 7
3. METOD ................................................................................................................................................. 10
3.1 OPTIMERINGSKRITERIER ................................................................................................................... 10
3.1.1 Specificitetsprincipen ............................................................................................................... 10
3.1.2 Precision och recall ................................................................................................................. 11
3.1.3 Exklusivitet ............................................................................................................................... 13
3.1.4 Auktoritetskontroll ................................................................................................................... 13
3.2 URVAL .............................................................................................................................................. 14
3.2.1. Genren audiobooks ................................................................................................................. 14
3.2.2. Sökordet Christmas ................................................................................................................. 14
3.2.3. Det totala beståndet ................................................................................................................ 15
3.2.4. Konsekvensen av att ej använda auktoritetskontroll ............................................................... 15
3.3 GENOMFÖRANDE .............................................................................................................................. 15
3.3.1. Genren audiobooks ................................................................................................................. 16
3.3.2. Sökordet Christmas ................................................................................................................. 16
3.3.3. Det totala beståndet ................................................................................................................ 16
3.3.4. Konsekvensen av att ej använda auktoritetskontroll ............................................................... 17
4. TIDIGARE FORSKNING ................................................................................................................... 18
4.1 MUSIKWEBB ..................................................................................................................................... 18
4.2 DIGITALA MUSIKTJÄNSTER ............................................................................................................... 19
4.3 INDEXERING AV MUSIK ..................................................................................................................... 20
5. TEORETISK BAKGRUND ................................................................................................................ 25
5.1 KATALOGISERINGSREGLER ............................................................................................................... 25
5.2 KONTROLLERADE VOKABULÄR ........................................................................................................ 25
5.3 UTTÖMMANDEGRAD ......................................................................................................................... 28
5.4 COLLABORATIVE FILTERING OCH SIMILARITY .................................................................................. 28
5.5 INDEXERINGSFEL .............................................................................................................................. 29
6. RESULTATREDOVISNING OCH ANALYS ................................................................................... 31
6.1 GENREN AUDIOBOOKS ...................................................................................................................... 31
6.2 SÖKORDET CHRISTMAS .................................................................................................................... 34
6.3 DET TOTALA BESTÅNDET .................................................................................................................. 36
6.4 KONSEKVENSEN AV ATT EJ ANVÄNDA AUKTORITETSKONTROLL ...................................................... 39
7. DISKUSSION OCH SLUTSATSER .................................................................................................. 42
8. SAMMANFATTNING......................................................................................................................... 46
KÄLLFÖRTECKNING........................................................................................................................... 48
BILAGA 1 – FIGUR- OCH TABELLFÖRTECKNING ...................................................................... 52
iii
1. Inledning
Att via Internet lagligt kunna lyssna på, eller ladda ner, den musik man själv tycker om
anser jag vara av godo. Dylika tjänster är i Sverige tämligen få. En av dessa är den tjänst
som drivs för att folkbibliotekens användare ska kunna tillgodogöra sig musik via
Internet lagligt, och utan extra kostnad. Den tjänsten heter Musikwebb och innehåller
stora mängder musikinspelningar. Bibliotekens Internettjänster handlar givetvis inte
enbart om tillgängliggörande av musikinspelningar. Det finns tjänster där man kan låna
exempelvis ljudböcker och e-böcker. Så sent som idag, 24 mars 2010, meddelade
företaget Ztorm att de, i samarbete med DBC1, lanserat en tjänst där de danska
biblioteksanvändarna till och med kan låna pc-spel via Internet.2
För var och en av de tjänster som är till för att komplettera bibliotekens utbud måste
man ha en sak i åtanke. I de fysiska biblioteken kan biblioteksanvändarna enkelt få hjälp
av en bibliotekarie för att hitta det som efterfrågas. I de virtuella biblioteken är det
svårare för användarna att kunna få hjälp av fysiska personer. Då krävs det istället att
systemen är så bra uppbyggda som möjligt och att användarna själva kan klara av att
finna vad som efterfrågas, givet att det finns i beståndet. Musikwebb innehåller ett stort
antal musikinspelningar, men kan dessa betraktas vara lättillgängliga ur ett
återvinningsperspektiv? Med termen lättillgänglig avser jag att användarna enkelt ska
kunna hitta den typ av musik de efterfrågar givet att denna musik återfinns i
Musikwebbs bestånd. Detta handlar exempelvis om ifall en artist brukat ett annat namn,
eller stavning på sitt namn. Det handlar även om hur lätt det är att hitta liknande musik
om man utgår från en viss artist eller genre användaren redan känner till och uppskattar.
Kort sagt går vill jag undersöka huruvida det är lätt att hitta ljudinspelningar på
Musikwebb det är hög sannolikhet för att man kommer att gilla, men som man inte
redan känner till, om man utgår från en artist/grupp/genre man gillar.
Begreppet återvinning är en översättning av termen information retrieval (IR). Detta
begrepp inbegriper hur information representeras, lagras, organiseras och hur det går att
få tillgång till informationen. Syftet med ett väl uppbyggt system är vanligtvis att
användaren lätt ska kunna ta del av den information denne betraktar vara relevant vid
sökningen.3 För att ett system skall kunna uppnå detta syfte är det av hög vikt att
dokumenten i systemet har blivit indexerade på ett sådant sätt att de tilldelats
nödvändiga kategoringseringstaggar. Tidigare har Musikwebb varit föremål för några
studentuppsatser, men ingen av dessa har i någon större utsträckning undersökt hur väl
Musikwebbs återvinningseffektivitet eller kategorisering fungerar. Därför är jag av
åsikten att en uppsats som evaluerar Musikwebbs sökfunktioner, indexeringsval och
indexeringsmöjligheter är behövlig.
Föreliggande uppsats behandlar främst musiktjänsten Musikwebb samt kategorisering
av musikinspelningar. Tanken är dock att uppsatsen ska vara så allmängiltig som
möjligt och kunna användas inte enbart när det gäller musiktjänster utan även tjänster
för exempelvis e-böcker eller spel. Jag har därför i så hög utsträckning jag ansett det
vara möjligt gjort valet att bruka mig av exempel där annat än musik använts för att
exemplifiera ett specifikt problem.
1
DBC hette tidigare Dansk BiblioteksCenter, men heter numera enbart DBC.
Ztorm 2010.
3
Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier 1999, s. 1.
2
1
1.1 Syfte och frågeställningar
Syftet med denna studie är att undersöka den ämneskategorisering som har utförts på ett
urval av de ljudfiler Musikwebb tillhandahåller i sitt bestånd, samt Musikwebbs
kontrollerade vokabulär. Syftet är även att studera på vilket sätt ämneskategoriseringen
samt sökfunktionerna inverkar på återvinningseffektiviteten. Syftet är också att resonera
om vilka förändringar jag anser skulle gynna Musikwebb vad gäller
återvinningseffektivitet och ämneskategorisering.
För att konkretisera syftet har jag valt följande frågeställningar:
Om det finns några problem vad gäller ämneskategorisering i det urval jag gjort
för mina testsökningar, vilka är då dessa problem?
Om det utifrån mina testsökningar framkommer att det behövs förändringar av
Musikwebbs kontrollerade vokabulär, vilka är då dessa förändringar jag anser
behövs?
1.2 Avgränsningar
Det hade varit fördelaktigt att ha haft möjlighet att genomföra en undersökning i
Musikwebb där samtliga genrer undersöks spår efter spår. Av tids- och utrymmesskäl
var en sådan undersökning tyvärr inte möjlig att genomföra. Av utrymmesskäl har jag
också valt att starkt begränsa de testsökningar jag utfört för att åskådliggöra hur väl
musikinspelningar indexerats på Musikwebb. Detta innebär givetvis att min studie ej
säger något om hur resultatet skulle ha sett ut om jag valt att inkludera hela beståndet,
eller andra delar av beståndet, i mitt urval. Det går alltså inte att dra några generella
slutsatser om Musikwebb i helhet enbart utifrån denna uppsats slutsatser.
En sak man bör ha i åtanke är att den studie av Musikwebb som utförts är baserad på en
tidigare version av Musikwebb. Likaså är jämförelsen mellan Musikwebb och Spotify
baserad på en tidigare version av Spotify. Vissa funktioner har därmed tillkommit hos
de båda tjänsterna och andra funktioner har i gengäld försvunnit. Jag har därför valt att
utförligt beskriva de funktioner som fanns tillgängliga vid den aktuella tidpunkten för
studien. Man bör samtidigt ha i åtanke att Musikwebbs bestånd är under ständig
förnyelse varvid mina testsökningar oavsett vilket skulle vara ögonblicksbilder. Även
om man vid en ny studie skulle ha haft möjlighet att välja samma sorts urval jag själv
gjort skulle resultatet troligen inte bli detsamma då innehållet i urvalet, med hög
sannolikhet, skulle ha förändrats sedan min senaste testsökning.
1.3 Disposition
I detta inledande avsnitt har forskningsproblemet presenterats.
I avsnitt 2 presenteras tre webbtjänster med inriktning på musik. Främst är det
musiktjänsten som står i fokus för uppsatsen som presenteras; Musikwebb. Jag har
också valt att presentera två andra musiktjänster jag anser vara viktiga för uppsatsen;
allmusic/All Music Guide samt Spotify.
I avsnitt 3 beskrivs den metod vilken jag valt för att kunna besvara valda
frågeställningar samt syfte för föreliggande magisteruppsats. I detta avsnitt står även att
2
läsa om de optimeringsverktyg jag valt för att analysera resultatet av de testsökningar
som utförts. Utöver detta beskrivs även hur urvalet till testsökningarna skett samt
eventuella problem mitt valda urval och metod kan medföra.
I avsnitt 4 redogörs för tidigare uppsatser samt forskning jag ansett vara relevant för
min egen uppsats samt vad som länkar dem samman.
I avsnitt 5 beskrivs den teoretiska ram uppsatsen bygger på.
I avsnitt 6 presenteras resultatet utifrån de testsökningar jag utfört i Musikwebbs
informationssystem. I samband med presentationen av sökresultaten sker även en analys
av resultatredovisningen. Denna analys sker med hjälp av evalueringsverktygen som
presenterades i avsnitt 3.
I avsnitt 7 utgår jag från de tidigare kapitlen och besvarar mina frågeställningar. Detta
sker dels genom analysen av testsökningarna, men det sker även med hjälp av den
tidigare forskning jag presenterat i avsnitt 4.
I avsnitt 8 står att läsa en sammanfattning av uppsatsen där de viktigaste delarna står att
läsa i komprimerad form. På detta följer magisteruppsatsens källförteckning.
I bilaga 1 återfinns en figur- och tabellförteckning.
3
2. Bakgrund
Under denna rubrik presenteras musiktjänsten jag valt att evaluera, Musikwebb, samt
två andra musiktjänster; allmusic/All Music Guide och Spotify. Anledningen till att jag
valt att inkludera en presentation av allmusic/All Music Guide är att denna webbtjänst
kommer att vara frekvent förekommande i avsnittet om tidigare forskning då den ofta
anses kunna vara behjälplig vid indexeringsprocessen. Spotify är en konkurrerande
musiktjänst. Marknadsundersökningsföretaget TNS SIFO genomförde en undersökning
25-29 november 2009 om Spotify och andra musiktjänster. Utifrån resultatet i denna
undersökning kunde de fastslå att Spotify var, för svenskar, den dominerande
musiktjänsten på Internet.4 TNS SIFO uppskattar att 2,9 miljoner svenskar har tillgång
till Spotify i hushållet. Detta motsvarar 37 % av svenskarna i åldersspannet 9-79 år.
Antalet svenskar i detta åldersspann som uppgav att de hade tillgång till någon annan
musiktjänst5 via Internet var endast 8 %. Dessa övriga musiktjänster var ej specificerade
så det går inte att veta hur stor andel exempelvis Musikwebb har av dessa 8 %.6 Då
Spotify på kort tid blivit den i särklass största musiktjänsten bland den svenska
befolkningen kan det alltså vara naturligt att se vilka likheter och skillnader som finns
mellan Musikwebb och Spotify.
2.1 Musikwebb
Musikwebb är en online-utlåningstjänst för musik som BTJ lanserade 2006, men som
Basepoint Media sedan den 1 januari 2009 tillhandahåller. Denna tjänst kunde i början
av oktober 2009 erbjuda drygt 2,6 miljoner ljudfiler.
Önskar någon nyttja Musikwebb krävs en PC med Internetuppkoppling. All musik på
Musikwebb är i Windows Media Audio-format (WMA) med DRM-skydd (Digital
Rights Management). Detta innebär att filerna är kopieringsskyddade, men det innebär
också att filerna endast kan bli lyssningsbara genom att de laddas ner till en dator vilken
har Windows installerat samt Windows Media Player i version 9 eller senare. Vill
användaren föra över filerna till en bärbar spelare krävs Windows Media Player version
10 eller senare. Det är dock inte alla bärbara spelare vilka kan hantera DRM-skyddade
WMA-filer. Apples Ipod klarar exempelvis inte av att spela upp dylika ljudfiler.7
Då användarna inte ska behöva låna musikinspelningar utan att ha viss kännedom om
musikinspelningen är ett spår som passar denne är det möjligt för användaren att lyssna
30 sekunder på varje spår. Detta gör att användaren åtminstone kan få viss vägledning i
att kunna avgöra om ljudfilen är av intresse eller ej.8 Vid lån hos Musikwebb behöver
inte användarna lämna tillbaka de musikinspelningar som lånats. I samband med att
lånetiden är till ända, sju dagar efter att ljudfilen aktiverats, upphör spåret att fungera.
För låntagarna tillkommer inga kostnader för att kunna låna musik från denna tjänst.
Vad som krävs är att folkbiblioteket vid vilket låntagarna har ett lånekort valt att
använda delar av sina ekonomiska resurser till att abonnera på tjänsten Musikwebb. 9
Folkbiblioteken har själva möjlighet att avgöra hur många musikinspelningar
användarna kan låna från Musikwebb. Det kan exempelvis vara ett visst antal spår per
4
TNS SIFO 2010, s. 2.
Webbradio betraktades i undersökningen ej vara en musiktjänst.
6
TNS SIFO 2010, s. 11.
7
Musikwebb, Basepoint Media 2009a.
8
Musikwebb, Basepoint Media 2009b.
9
Musikwebb, Basepoint Media 2009b.
5
4
månad, ett visst antal lånade spår samtidigt eller så många spår som användaren själv
önskar.10
Nedanstående information bygger på de iakttagelser jag gjort i samband med att jag
undersökt hur användarna kan bruka Musikwebb. De tillgängliga sökalternativen
medger enkel sökning på artist, titel eller allt. Väljer användaren att söka i fältet allt
utför sökfunktionen en sökning i samtliga fält. Detta innebär att sökningen sker på
artist- eller gruppnamn, albumtitel, spårtitel, genre samt skivbolag. Utgivningsår
inkluderas däremot ej i denna sökning. Väljer användaren att istället söka efter artist
görs en sökning i databasen efter matchande artist- eller gruppnamn. Den tredje
varianten i Musikwebbs sökfunktion är titelsök och då är album- samt spårtitlar sökbara.
Det andra sättet att söka i Musikwebbs utbud är att användaren kan använda sig av
antingen genre- eller artistlistan och i någon av dessa bläddra sig fram tills användaren
finner en intressant artist/grupp eller musikinspelning.
Väljer användaren att använda genrelistan för sökning väljer denne önskad genre bland
de 51 genrer11 vilka är tänkta att representera Musikwebbs bestånd. När användaren valt
en genre förflyttas denne till en sida där de 25 första spåren, vilka indexerats med den
utvalda genrekategorin, finns angivna. För att ta sig vidare till nästkommande 25 spår
finns länkar på nedre delen av sidan. Utgångsläget är att användaren ser listan sorterad
utifrån namnet på artisten/gruppen i stigande alfabetisk ordning. Det går dock att sortera
sökträffslistan utifrån spår- eller albumtitlarna i alfabetisk ordning, och då antingen i
stigande eller fallande alfabetisk ordning. Givet att spåret ej indexerats vid mer än ett
tillfälle återfinns varje spår endast under den genre indexeraren ansett vara mest
relevant. Olika spår på samma album kan erhålla olika genrebeteckningar.
Väljer användaren att istället söka efter önskade musikinspelningar via artistlistan
presenteras användaren en lista över alfabetet. Bokstaven a är förvalt i denna lista. På
denna sida återfinns de 30 första artisterna vars förnamn börjar på bokstaven a. Det är ej
möjligt att använda sig av denna sökmetod för att finna artister/grupper vilkas namn
börjar med en siffra, ett tal eller något specialtecken. Utvecklarna av Musikwebb har
valt att ej använda sig av auktoritetskontroll vilket innebär att det i listan kan
förekomma flera olika namnformer av samma namn.
Det finns ej något alternativ för någon form av avancerad sökning där det är möjligt att
kombinera olika sökmöjligheter. Detta kan exempelvis vara att kunna söka på en viss
genre samt ett visst årtal. Däremot är det möjligt att utföra en sökning och sedan sortera
sökträffarna utifrån spår- eller albumtitlar eller genre eller artistens/gruppens namn.
Detta antingen i stigande eller fallande alfabetisk ordning.
Väljer användaren att söka på exempelvis sökordet Bow vid sökningar på allt, eller
artist, skulle även Bowie vara en tänkbar träff givet att det finns någon artist eller
musikinspelning där namnet/ordet Bowie förekommer.
När användaren, genom att använda något av sökalternativen, utfört sin sökning får
denne se en lista med de spår vilka innehåller det, eller de, ord som valdes som sökord.
Det finns ej något alternativ för att kunna se en lista över de album dessa spår
förekommer på. Vill användaren se ett specifikt album klickar denne på albumnamnet,
10
11
Musikwebb, Basepoint Media 2009b.
Se tabell 6.3 för en komplett lista av Musikwebbs genrer.
5
men möjligheten att se en lista över samtliga tillgängliga album med en viss artist eller
inom en viss genre är alltså ej möjligt.
2.2 allmusic/All Music Guide
All Music Guide grundades 1991 med syfte att hjälpa musikälskare att kunna få ny och
fördjupad kunskap om musikvärlden, dess många genrer och än fler undergenrer. Året
därpå släpptes den första av All Music Guides referensböcker och ytterligare några år
senare, 1995, grundade All Music Guide webbsidan allmusic. Denna webbtjänst är en
databas med fokus på all världens musik. Existerar en genre är målet att den ska finnas
angiven på allmusic, oavsett hur smal den än är. För att kunna lyckas uppnå detta mål
består All Music Guide av ett antal redaktörer samt hundratals experter där var och en
har specialkunskaper om någon eller några genrer. En stor fördel med denna bemanning
är att användarna ska kunna veta att en betygsättning av ett album är gjord av någon
som är kunnig inom just denna genre. En recensent som är expert på genren blues skulle
alltså ej betygsätta ett album inom genren electronica. Den främsta intäktskällan för All
Music Guide är organisationer som valt att använda material från allmusic.12 En av
dessa organisationer är Spotify.13 Denna webbtjänst kommer flera gånger att refereras
till i kapitlet om tidigare forskning då informanter i olika studier ansett att andra
musiktjänster, exempelvis Musikwebb, borde nyttja allmusics expertis.
En fördel med allmusic är att användarna på ett enkelt sätt kan se om en artist varit, eller
är, medlem i en grupp samt vilka artister som influerat en specifik artist eller vilka
artister denne influerat. Det går även att se liknande artister, vilken eller vilka genrer
artisten varit aktiv inom samt vilka stilar som förknippas med artisten och mycket annan
information. För att konkretisera informationen om allmusics webbtjänst valde jag att
besöka sidan om Freddie Mercury. På denna sida kan användaren se en bild av
Mercury. På översiktssidan kan användaren även läsa inledningen till den biografi som
finns om Mercury på allmusic. I olika faktarutor och tabeller går det att läsa att Freddie
Mercury föddes den 5 september 1946 på Zanzibar och dog i London den 24 november
1991. Han var en aktiv artist under 1970-, 1980-, och 1990-talet inom genren pop/rock.
Han var sångare, men spelade även piano och keyboard. Freddie Mercury var medlem i
grupperna Queen och Smile och en liknande artist är exempelvis Brian May, som också
var medlem i Queen. Allt detta står att läsa på Overview (översiktssidan) om Freddie
Mercury. Vill användaren veta mer om Freddie Mercury finns flikar med namnen
Biography, Discography, Songs, Credits, Charts & Awards. Under fliken biography
(biografi) står att läsa hela den biografi ur vilken det fanns ett utdrag på översiktssidan.
På sidan för discography (diskografi) kan användaren se en lista över de album och
singlar Freddie Mercury gav ut. Sidan om songs (sånger) är även den väldigt användbar
då det ofta, om än inte alltid, finns en lista över några av de mest kända låtarna en artist,
eller grupp, spelat in. Ofta går det även att lyssna på kortare utdrag ur dessa låtar. För
just Freddie Mercury kan användarna lyssna på snuttar av nio av elva låtar. Under fliken
credits listas alla de musikinspelningar Freddie Mercury varit medverkande på, samt
vilken roll han haft under musikinspelningarna. Den sista fliken, charts and awards
(listor och utmärkelser), visar vilka album och singlar som legat på den amerikanska
Billboard-listan samt vilka Grammys Freddie Mercury vunnit i USA.14
Om användaren vill veta mer om den genre Freddie Mercury var verksam inom,
pop/rock, är det möjligt att klicka på genretermen. Användaren förflyttas då till
12
allmusic 2009.
Spotify 2009.
14
allmusic 2009.
13
6
översiktssidan för just denna genre. På denna sida står att läsa en beskrivning av genren.
Längre ner på sidan finns något som kan vara av intresse för användaren; en lista över
stilar inom genren. För just genren pop/rock finns 13 stilar, eller undergenrer om man så
föredrar, angivna. Under var och en av dessa 13 undergenrer finns ett stort antal än mer
specificerade genrer listade. Enbart under undergenren hard rock (hårdrock) finns över
30 än mer specificerade genrer angivna. Längre ner på sidan finns listor över de främsta
artisterna inom genren, som i det här fallet är huvudgenren pop/rock, liksom de främsta
albumen och de främsta låtarna inom just denna genre. 20 artister eller grupper är
listade samt topp tio av album och låtar. Vill användaren se fler artister/grupper, album
eller låtar är detta möjligt genom att klicka på en länk för att få se en fullständig lista.
Längst ner på sidan går det att läsa essäer om den aktuella genren vilka skrivits av All
Music Guides skribenter.15
2.3 Spotify
Under det senaste året har en svensk musiktjänst blivit mycket populär. Denna
musiktjänst heter Spotify. Spotify låter användarna få tillgång till ett stort
musikbibliotek genom att användarna brukar Spotifys egen mediaspelare. Från Spotifys
servrar strömmas sedan musikinspelningarna till användarna. Strömning innebär att
användarna måste vara uppkopplade till Spotifys server för att kunna lyssna på musik.
Musiken laddas ner under tiden användarna lyssnar på den. Vad detta innebär är att
fördröjningen innan musiken börjar spelas upp är så kort att den inte ens ska märkas.16
Totalt strömmas miljarder låtar varje månad och varje dag tillkommer tiotusentals nya
Spotify-användare.17
För användarna kan Spotify vara gratis att bruka. Ett gratiskonto innebär dock att
användarna förutom musik även nödgas lyssna på reklammeddelanden med jämna
mellanrum. Önskar användaren slippa lyssna på denna reklam är det möjligt att betala
för tjänsten genom att skaffa sig ett premiumkonto. Det finns två olika sorters
premiumkonton där det ena kontot i dagsläget kostar 9 kr per dag och det andra kontot
kostar 99 kr per månad.18
För att bruka Spotify krävs att användaren använder Mac OS X 10.4 eller senare,
Windows XP eller senare. Det går även att använda Spotify genom Wine19 i Linux. För
att kunna lyssna på musiken krävs också att användaren använder Spotifys egen
mediaspelare.20
I samband med att användarna brukar tjänsten är det möjligt att skapa spellistor med
olika teman eller inom olika genrer. I princip är det enbart fantasin som sätter stopp för
ens kreativitet vad gäller spellistor. Dessa spellistor kan användaren sedan dela med sig
av till andra användare.21
Det är inte möjligt att gratis ladda ner den musik man vill lyssna på. Har användaren ett
premiumkonto för 99 kr per månad är det däremot möjligt att skapa en offline-spellista
15
allmusic 2009.
Spotify 2009.
17
Sehr, Andres, Spotify 2009.
18
Spotify 2009.
19
Wine är en mjukvaruapplikation som låter användarna av Unix-baserade operativsystem, som olika
varianter av Linux, använda program skapade för Microsoft Windows.
20
Spotify 2009.
21
Spotify 2009.
16
7
på max 3 333 låtar som går att lyssna på om användaren saknar tillgång till Internet.
Detta kan vara exempelvis på en laptop, en Iphone, eller en mobiltelefon med
operativsystemet Android. Användarna har även möjlighet att köpa musik via Spotify,
och detta sker genom att användarna betalar för att ladda ner ett spår, oftast laddas dessa
spår ner i form av mp3-filer. 22
För att kunna återvinna önskad musik i Spotify kan användaren välja att söka på
exempelvis genre:techno. Är inte all techno av intresse utan endast den techno vilken
skapades under första halvan av 1990-talet är det möjligt att begränsa sökningen till
genre:techno year:1990-1995.23
Spotify har valt att licensiera delar av sitt material från All Music Guide och för att
beskriva hur Spotify fungerar har jag valt att utgå från samma exempel här som vad jag
gjorde hos All Music Guide.24
Följande är mina iakttagelser om hur Spotifys mediaspelare25 fungerar. När användaren
besöker sidan för Freddie Mercury kan denne se en översiktssida där det är möjligt att
läsa ett utdrag ur den biografi som även finns publicerad på allmusic. Till höger om
detta utdrag återfinns artister vilkas musik liknar Freddie Mercurys egen musik. Under
detta finns en funktion som kallas för Top hits. Här kan användaren se Freddie
Mercurys fem populäraste låtar på Spotify. På detta följer en lista över Freddie
Mercurys musikinspelningar där först album står angivna följt av singlar och
avslutningsvis album där Freddie Mercury står angiven som en av de deltagande
artisterna. Hit räknas dock ej musikinspelningar där Freddie Mercury är en av
medlemmarna i en grupp utan enbart musikinspelningar där Freddie Mercury explicit
står angiven som en av artisterna. Under den andra fliken, biography, återfinns hela den
biografi som också återfinns på allmusic. Var gång det hänvisas till en annan artist eller
grupp (exempelvis Queen) återfinns en klickbar länk till denna artist eller grupps
Spotify-sida. Den tredje länken kallas Artist radio. På denna sida kan användaren se mer
av den information vilken är licensierad från All Music Guide. Dels är det möjligt att se
vilka decennier Freddie Mercury var aktiv. Det är även möjligt att se vilka genrer
Freddie Mercury var aktiv inom. Utöver det kan användaren även på den här sidan se
vilka fem låtar som är de mest populära med Freddie Mercury på Spotify. Denna sidas
huvudsakliga syfte torde däremot vara själva artistradion. Detta innebär att användaren
skapar en slags radiokanal där låtar med Freddie Mercury varvas med låtar av artister
vilka skapat musik som påminner om Freddie Mercurys musik. Också dessa artister
presenteras på sidan med namn, vilka decennier de var aktiva samt vilka genrer de varit
verksamma inom.
Jag utgår här från samma genre jag valde hos All Music Guide, pop/rock. Det är då
möjligt att se några av de artister vilka skapat musik inom denna genre. Totalt är det
1 107 artister som har kategoriserats med genretaggen pop/rock. Det är även möjligt att
se några av de 3 869 album inom denna genre. Användaren får även veta att totalt
55 670 spår är kategoriserade som pop/rock. Längre ner på denna sida återfinns ett antal
av de spår vilka taggats med denna genrekategorisering. Dessa spår går att sortera i
fallande eller stigande ordning utifrån låttitel, artistnamn, låtlängd, popularitet eller
albumtitel.
22
Spotify 2009.
Spotify 2009.
24
Spotify 2009.
25
Spotify Version 0.3.21. (revison 56306)
23
8
Ett annat sätt att få tips om intressanta musikinspelningar är att använda sig av Top lists.
På denna sida kan en användare se vilka låtar eller album användaren själv lyssnat på
flest gånger. Användaren kan också se vilka låtar eller album som för tillfället är de
mest populära på Spotify i helhet, eller bland Spotifys användare i de olika länder i
vilka Spotify är tillgängligt.
9
3. Metod
Syftet med uppsatsen var att undersöka och evaluera Musikwebbs sökfunktioner, samt
ämneskategorisering, i det urval jag valde för studien samt att undersöka huruvida jag
kunde anse att den nuvarande vokabulären var tillräcklig för ett bestånd av Musikwebbs
storlek. För att kunna besvara mina frågeställningar valde jag att utföra ett antal
testsökningar hos Musikwebb. För att sedan kunna analysera dessa testsökningar valde
jag att även göra litteraturstudie om indexeringsteori där F. W. Lancasters teorier om
informationsåtervinning stått i fokus, men där också andra forskares åsikter och teorier
nyttjats.
3.1 Optimeringskriterier
I likhet med ämnet för innevarande magisteruppsats skrev Jesper Eriksson och KarlOskar Freij 2008 en magisteruppsats vid Högskolan i Borås om musik och
kunskapsorganisation
där
de
gjorde
en
jämförande
studie
mellan
klassifikationssystemen DDC, SAB och UDC. För att kunna analysera de resultat de
erhållit rådfrågade de sin handledare, Tor Henriksen, om vad som skulle kunna vara ett
lämpligt analysverktyg. Henriksen föreslog då att Eriksson och Freij skulle bruka sju
optimeringskriterier där grunden till dessa var hämtade från bland annat Ranganathan,
Bliss och Mills teorier om kunskapsorganisation.26 Jag har i min uppsats valt att utgå
från en modifierad variant av deras analysverktyg då samtliga kriterier de valde ej är
tillämpliga på Musikwebbs vokabulär. De kriterier jag beslutade mig för att välja vid
analyseringsprocessen är specificitetsprincipen, exklusivitet, auktoritetskontroll samt
evalueringsverktygen precision och recall. Nedan följer en utförlig beskrivning av valda
optimeringskriterier.
3.1.1 Specificitetsprincipen
I samband med valet av lämpliga indexeringstermer är det ytterligare ett val som
behöver göras och det är på vilken specificitetsnivå indexeringstermerna skall väljas.
Vad gäller indexering är det viktigaste för indexeraren, och har varit ända sedan Cutter
skapade sina regler för att beskriva hur man konstruerar en bibliotekskatalog, att finna
den mest specifika term vilken kan beskriva ämnet på ett fullgott sätt.27 För indexeraren
gäller det att avgöra hur precist det går att kategorisera dokumentet samtidigt som
söktjänsten förblir användbar. Är indexeringstermerna för breda kan det skapa problem
då de täcker in för många dokument. Träffarna och termerna kan då minska i relevans
vid det praktiska användandet.28 Det är även viktigt att den kontrollerade vokabulären
tillåter mer specificerade ämnesord om detta krävs. Det spelar ingen större roll vilken
kunskap indexeraren än besitter om den som skapat den kontrollerade vokabulären
skapat den på en nivå som är väl ytlig för att den praktiska användningen ska bli
funktionell för såväl indexerare som användare.29
Indexeraren bör alltså försöka få termerna så precisa och specifika som möjligt för att
representera dokumentets innehåll. Behandlar dokumentet vitlök bör ämnesordet vitlök
användas och inte ämnesordet lök eller möjligen lökväxter. Man bör samtidigt ha i
åtanke hur det övriga beståndet ser ut. Finns det inga andra dokument som behandlar
26
Eriksson, Jesper & Freij, Karl-Oskar 2008, s. 24.
Lancaster, F. W. 2003, s. 33.
28
Harter, Stephen P. 1986, s. 114.
29
Lancaster, F. W. 1986, s. 148.
27
10
vitlök, eller ens lökar eller lökväxter kan en alltför hög grad av specificitet medföra att
sökmöjligheterna för användarna blir försämrade.30 Cutter fastslog redan 1876 att den
föredragna termen är den som är mest trolig att användarna använder.31 Är det mest
specificerade begreppet för specificerat menar Hellsten & Rosfelt att indexeraren istället
ska välja den närmast överordnade termen istället.32
För indexeraren är det alltså viktigt att tänka på vilka användarna är samt hur beståndet
ser ut för att på så sätt kunna göra lämpliga ämnesbegränsningar. Uppnår inte termen
önskad specificitet går detta att justera så att den valda termen är mer snäv, eller för den
delen bredare.33 Ett exempel där klassifikationssystemet inte är tillräckligt specifik är
om en uppfödare av kaniner skulle använda sig av Deweys klassifikationssystem för att
finna dokument om en specifik kaninras. Detta är dock inte möjligt då samtliga
dokument om tamkaniner finns samlade under signumet 636.9322. Följden av detta blir
att uppfödarens sökning via signumet kommer att resultera i många irrelevanta
sökträffar.34
3.1.2 Precision och recall
Något i princip alla användare av en databas har gemensamt är att de förmodar att
systemet ska kunna återvinna ett eller flera dokument användaren har nytta av, det vill
säga dokument vilka kan betraktas vara relevanta. I vissa undantagsfall kan det dock
vara så att användaren inte vill att systemet ska kunna återvinna några dokument, och då
är en sökning där systemet inte finner några relevanta dokument en lyckad sökning. Ett
exempel på detta är någon som tänkt sig att söka patent för något och då givetvis inte
vill att någon annan ska ha hunnit före med en patentregistrering. 35 Vid sökningar i en
databas är det optimala att användaren lyckas återvinna de, för sökningen, relevanta
dokumenten, och endast dessa dokument. När sökningen skall evalueras brukar följande
figur användas:
Antal relevanta dokument
Antal irrelevanta dokument
Antal återvunna
dokument
Antal ej återvunna
dokument
A
B
C
D
Figur 3.1. Det kvantitativa resultatet vid en sökning indelat i fyra fält utifrån om de är relevanta,
36
irrelevanta, återvunna eller ej återvunna.
För att kunna evaluera hur väl återvinningen har lyckats delas samlingen upp i olika
fält; återvunna dokument respektive ej återvunna dokument (A och B respektive C och
D). Likaså delas de, för sökningen, relevanta dokumenten upp i två delar (fält A och C i
figur 3.1) utifrån om de återvunnits eller ej. De irrelevanta dokumenten kan ses i fält B
och D i figur 3.1.37
30
Hellsten, Unn & Rosfelt, Margareta 1999, s. 28.
Lancaster, F. W. 1986, s. 61.
32
Hellsten, Unn & Rosfelt, Margareta 1999, s. 77.
33
Benito, Miguel 2001, s. 268ff.
34
Rowley, Jennifer & Hartley, Richard 2008, s. 133.
35
Lancaster, F. W. 1986, s. 132.
36
Harter, Stephen P. 1986, s. 156.
37
Harter, Stephen P. 1986, s. 155f.
31
11
Vid optimal återvinning är värdet noll i fält B och C. Detta innebär att inga irrelevanta
dokument återvunnits och det finns heller inga relevanta dokument som ej återvunnits.
Detta är dock ovanligt vid praktiskt användande. För att kunna göra en kvantitativ
mätning på hur väl återvinningen har lyckats är det möjligt att använda sig av
optimeringskriterierna precision och recall.38
Med recall avses antal återvunna dokument som är relevanta dividerat med det totala
antalet relevanta dokument. Detta innebär alltså värdet i fält A dividerat med det totala
värdet av fält A samt fält C.39 För att nämna ett exempel: i samlingen A finns totalt 100
dokument. Av dessa 100 dokument är 40 dokument relevanta vid sökning 1. Vid
sökning 1 återvinns 30 av de 40 relevanta dokumenten i samling A. För att beräkna
recall-värdet tar man talet 30 (A) och dividerar det med summan av 30 + 10 (A + C). 30
dividerat med 40 blir 0,75 (75 %). Recall-värdet blir alltså 75 % vid sökning 1.
Med precision avses hur väl användaren lyckats undvika irrelevanta dokument samtidigt
som denne återvunnit relevanta dokument.40 Precisionsvärdet räknas ut genom att
dividera antalet återvunna samt relevanta dokument med det totala antalet återvunna
dokument.41 För att återigen använda samma exempel jag använde när jag visade hur
recall-värdet ska räknas ut tillkom det 20 dokument vid sökning 1 som var irrelevanta.
För att beräkna precisionsvärdet tar man talet 30 (A) och dividerar det med summan av
30 + 20 (A + B). 30 dividerat med 50 blir 0,6 (60 %). Precisionsvärdet blir då 60 % vid
sökning 1.
Det bästa vore om informationsåtervinningssystemen kunde utvecklas så att båda dessa
värden blir väldigt höga. Studier har dock visat att när det ena värdet ökar är det vanligt
att det andra sjunker. Utvecklarna bör alltså främst fokusera sitt arbete på att uppnå en
jämn balans mellan de två olika optimeringskriterierna.42
Ju mer databasen växer, desto mer specifika ämnesord bör väljas. Görs inte detta kan
precisionen snabbt sjunka till nivåer vilka ej kan betraktas vara acceptabla. F. W.
Lancaster tar som exempel på detta upp att i den amerikanska biblioteksvärlden är
antalet ämnesord, vilka ska beskriva dokumenten i helhet, under två ämnesord per
dokument i snitt. Detta kan ha varit acceptabelt för femtio år sedan när samlingarna var
mycket mindre, och kan förvisso fortfarande vara det i mindre samlingar, men inte när
samlingarna uppgår till miljontals dokument. Följden av det låga antalet ämnesord har
lett till att många av sökträffarna vid sökningar i bibliotekskatalogerna är irrelevanta
sökträffar och precisionen blir därmed låg.43 Hos Musikwebb, som har ett stort antal
musikinspelningar i sitt bestånd, bör alltså antalet ämnesord, genrer, vara högt annars
riskerar precisionen att sjunka till värden som försvårar sökprocessen avsevärt för
användarna.
Recall-värdet kan vara svårt att räkna ut då det ofta är svårt att veta hur många relevanta
dokument det finns i samlingen. En samling kan bestå av väldigt stora mängder
dokument och att förvänta sig att man känner till värdet på A + C i en stor samling är
sällan rimligt.44 Det finns då alternativa recall-uträkningar vilka är möjliga att använda
38
Harter, Stephen P. 1986, s. 156.
Lancaster, F. W. 1986, s. 132.
40
Rowley, Jennifer & Hartley, Richard 2008, s. 294.
41
Lancaster, F. W. 1986, s. 133.
42
Rowley, Jennifer & Hartley, Richard 2008, s. 294.
43
Lancaster, F. W. 2003, s. 30f.
44
Lancaster, F. W. 1986, s. 136.
39
12
sig av i sin evaluering. En av dessa är att använda sig av ett antal olika personers
sökningar och betrakta det totala antalet relevanta och unika dokument de återvunnit
som det totala antalet relevanta dokument i systemet. En annan metod är att utgå från
det totala antalet dokument en expert lyckats återvinna och sedan jämföra dennes
resultat med det resultat så kallade vanliga personer lyckats uppnå. Ytterligare ett
alternativ för att beräkna recall-värdet är att utgå från hur många relevanta dokument
användaren känner till att det finns i databasen.45
3.1.3 Exklusivitet
Med termen exklusivitet avses att det på en och samma nivå inte ska finnas termer vilka
överlappar varandra.46 Finns det exempelvis en godkänd term för jazz får det inte på
samma nivå finnas en godkänd term för storbandsjazz. Skulle det göra det överlappar
dessa två termer varandra då storbandsjazz är en variant av jazz.
Ett problem som lätt kan uppstå med termer vilka överlappar varandra är att det blir
svårare för indexerarna att vara konsekventa i sin indexering. I ett exempel, hämtat ur
verkligheten, visar Lancaster vilka problem som kan uppstå när de närliggande termerna
reading interests samt reading attitudes går att välja som termer för att representera ett
dokument. Utöver det hade den ena indexeraren valt literature appreciation och reading
material selection och den andra indexeraren hade istället valt literature criticism och
reading materials.47 Trots att andemeningen är densamma mellan de två indexerarnas
valda termer kan recall-värdet komma att bli lågt om de valbara termerna ej är
exklusiva.
3.1.4 Auktoritetskontroll
Vad gäller artister och grupper är det inte ovanligt att dessa namn förekommer i många
olika namnformer. Vid katalogisering kan det alltså vara av godo att ha tillgång till
auktoritetskontroll då detta innebär utökade möjligheter för att ingångarna i databasen
ska vara konsekvent utformade.48
Ovanstående stycke refererar till en artikel skriven av Sherry L. Vellucci. För att
exemplifiera denna problematik har jag valt att skapa ett exempel baserat på hennes
namn. I en databas som inte använder sig av auktoritetskontroll kan det uppstå problem
om man inte vet vilken namnform som ska användas. Några exempel på olika
namnformer hennes namn och titel kan skapa är Sherry Vellucci, Dr. Sherry Vellucci,
Sherry L. Vellucci, S. L. Vellucci, Sherry Lynn Vellucci. Förekommer samtliga dessa
namnformer i katalogen försvåras möjligheterna att återvinna samtliga hennes texter
och recall-värdet kan snabbt komma att sjunka.
45
Rowley, Jennifer & Hartley, Richard 2008, s. 296.
Ranganathan, S. R. 1989, s. 160.
47
Lancaster, F. W. 2003, s. 79.
48
Vellucci, Sherry L. 2001, s. 541f.
46
13
3.2 Urval
3.2.1. Genren audiobooks
För att minimera det subjektiva tyckandet och maximera det objektiva tänkandet i
urvalsprocessen valde jag att använda mig av genren audiobooks (ljudböcker).
Ljudböcker anser jag vara relativt lätt att kategorisera på ett objektivt sätt då denna
genre indikerar att ljudfilen skall bestå av en uppläst bok. Det finns dock två andra
genrer vilka kan betraktas vara närliggande bland de kategorier som är tillgängliga på
Musikwebb och dessa genrer är dokumentär samt komedi. Frågan är då om dessa tre
kategorier kan vara exklusiva gentemot varandra eller ej. Hur indexeras exempelvis en
bok med dokumentära inslag när dubbelkategorisering inte är möjlig? Hur ska en dylik
bok sedan på ett enkelt sätt kunna återvinnas om användaren enbart utgår från bokens
genre och inte dess titel?
Vad som står i fokus för denna testsökning är att studera optimeringskriterierna
precision samt exklusivitet. Vad gäller termen precision undersöker jag här hur många
av de album, vilka kan återvinnas vid en genresökning, som kan betraktas vara relevanta
då användaren efterfrågar ljudböcker i kategorin audiobooks. Kriteriet exklusivitet
undersöker jag genom att se om det uppstår några problem gentemot kategorierna
dokumentär samt komedi.
3.2.2. Sökordet Christmas
Vad som är av störst intresse att undersöka vad gäller sökordet Christmas är vilket
recall-värde en användare kan förvänta sig om den använder sig av genresökning och då
väljer kategorin julmusik för att återvinna musikinspelningar vilka innehåller ordet
Christmas i titeln.
En genre specifikt för julmusik är egentligen ingen riktig genre utan snarare ett tema där
musikinspelningar inom i princip samtliga genrer kan samsas. Min arbetshypotes vad
gäller Christmas är därför att merparten av de titlar vilka inkluderar detta sökord bör
vara kategoriserade under genrebeteckningen julmusik då det förefaller mig som mest
troligt att användarna främst är intresserade av musikinspelningar med Christmas i titeln
i samband med jul. Detta medför att dessa musikinspelningar inte kan betraktas vara
lika intressanta resterande delar av året.
Det finns flera anledningar till att jag valde att använda mig av det engelska ordet
Christmas istället för det svenska ordet jul. En sökning på ordet jul skulle innebära att
även namnet Julia, vid bruk i en titel, och ordet hjul renderar i sökträffar. Dessa
sökträffar skulle, med väldigt hög sannolikhet, vara irrelevanta sökträffar. Dessutom går
det inte att bortse från att det finns en viss sannolikhet för att sökfunktionen ändras så
att en sökning på jul enbart skulle rendera i träffar på ordet jul. Hjul och Julia skulle då
inte återvinnas av systemet, men det skulle inte exempelvis julgran, julafton eller
julklapp heller göra. I engelskan är det ovanligt med sammansatta ord vilket innebär att
ordet Christmas inte blir lika känsligt för en ändring i sökfunktionen. Bruk av ordet
Christmas kan alltså vara att föredra om någon i framtiden skulle vilja använda de
resultat jag erhållit genom mina sökningar och göra en komparativ studie mellan
Musikwebb nu och då.
14
Vid en sökning efter ordet Christmas i titeln genomsöker sökfunktionen såväl
albumtitlar som spårtitlar. Detta innebär att musikinspelningar med Christmas i titeln
indirekt kan behandla julen, men likväl innebära en träff som inte kan betraktas vara
relevant för sökningen. Detta kan exempelvis ske om en artist släpper en utgåva, särskilt
för julen, av ett album med ordet Christmas i titeln, men det är alltså kanske bara någon
enstaka, eller t.o.m. ingen, av låtarna som kan betraktas vara julmusik.
Det kan även finnas exempel på låtar vilka innehåller Christmas i titeln trots att låten
inte alls är en jullåt. Jag har dock gjort bedömningen att dessa låtar torde vara tämligen
få i jämförelse med de låtar vilka faktiskt är jullåtar. Det går dock inte att bortse från
möjligheten att ett smärre urval av resultatet i mina sökningar inte alls är jullåtar.
3.2.3. Det totala beståndet
Anledningen till att jag valt att studera antalet musikinspelningar i det totala beståndet
är att det dels är tänkt att kunna hjälpa till för att se om Musikwebbs genrer är exklusiva
gentemot varandra och/eller om Musikwebbs indexerare följer specificitetsprincipen.
Undersökningen är även tänkt att vara till vägledning för att kunna avgöra huruvida
Musikwebbs vokabulär innehåller tillräckligt många kategorier eller om antalet
kategorier är för många, eller för få. Finns det kategorier med ett högt antal
musikinspelningar kan det finnas anledningar att dela upp den kategorin i mindre delar
för att göra det enklare för användare att finna den musik som efterfrågas. Finns det
kategorier med inga eller väldigt få musikinspelningar kan det tyda på att kategorin i
fråga är överflödig och kanske bytas ut mot en lämpligare kategori.
3.2.4. Konsekvensen av att ej använda auktoritetskontroll
Musikwebb använder sig inte av auktoritetskontroll. Vad detta innebär är att en artist
eller grupp kan förekomma mer än en gång i databasen med snarlika, men ej identiska,
namn. Undersökningens syfte är att studera vilka problem som kan uppstå vad gäller
recall samt om det är hög sannolikhet för att det uppstår problem på grund av att
Musikwebb har valt att ej använda sig av auktoritetskontroll.
För att genomföra denna undersökning har urvalet skett utifrån den första sökträffsidan
under varje bokstav. Nummer, och andra tecken, finns ej representerat i denna sökmetod
och dessa kan därför ej ingå i undersökningen. Urvalet i undersökningen blir alltså de
30 första artist- eller gruppnamnen för varje bokstav. Det totala urvalet skulle därför bli
870 artist- eller gruppnamn. Dock finns bara 26 artister/grupper angivna under
bokstaven Å och endast två artister/grupper återfinns under bokstaven Ä. Mitt urval
består därför av 838 artist- eller gruppnamn.
3.3 Genomförande
Testsökningar har skett vid ett antal tillfällen. Datum för respektive tillfälle anges i
samband med beskrivningen av respektive sökmetod. Gemensamt för dessa tillfällen är
att de har skett utanför kontorstid. Anledningen till detta är att jag utgått från att de
flesta tillskott till beståndet, samt förändringar i detsamma, sker under kontorstid. Skulle
en förändring av beståndet ske i samband med att undersökningen utförs skulle det
innebära att resultatet av undersökningen, med hög sannolikhet, blir förvanskat. Detta
vore givetvis av ondo då undersökningen i sådant fall inte skulle ge en representativ bild
av det vilket var tänkt att studeras vid undersökningstillfället.
15
3.3.1. Genren audiobooks
Den sökning jag valt för att beskriva Musikwebbs bestånd av audiobooks utfördes den
6/10 2009. När sökningen utfördes sökte jag genom att gå in i kategorin audiobooks och
jag sorterade sedan sökträffslistan efter albums. Därefter antecknade jag
musikinspelningens artist/grupp, albumnamn samt antal spår på musikinspelningen. Vid
fall där jag var osäker på om ljudfilen var en ljudbok eller ej nyttjade jag möjligheten att
få lyssna 30 sekunder på ljudspåret för att på så sätt kunna komma med en relevant
bedömning. När samtliga 562 ljudspår blivit inräknade sorterade jag sökresultatet efter
namnen på artister/grupper i fallande alfabetisk ordning, och det är också på detta sätt
resultatet står presenterat i avsnitt 6.
3.3.2. Sökordet Christmas
Sökningar efter musikinspelningar med Christmas i titeln skedde första gången den
24/11 2008. Syftet med detta var att göra det precis en månad innan julafton. Jag antog
att det var ungefär vid den tidpunkten julmusik skulle öka i popularitet. Nästa sökning
skedde 11/3 2009. Ytterligare en sökning utfördes på dagen två månader senare och den
avslutande sökningen skedde på dagen nio månader efter att första sökningen ägt rum,
24/8 2009.
Då jag utfört sökningar har jag valt att sortera sökträffssidan utifrån
musikinspelningarnas genre. Därefter har jag, sida för sida, noterat antalet spår i de
olika genrer som är representerade på just denna sida. När samtliga sidor är
genomgångna har jag adderat antalet spår från samtliga genrer och jämfört detta tal med
det tal vilket anges i samband med antal sökträffar på söktermen, detta i syfte att minska
risken för eventuella fel. Om talen inte skulle överensstämma skulle sökningen få
utföras på nytt. Just detta skedde dock inte vid någon av sökningarna. Vad som däremot
hände vid två av söktillfällena var att tjänsten Musikwebb blev otillgänglig under en
viss period. När webbtjänsten väl blev tillgänglig igen valde jag att börja om sökningen
från början då beståndet, åtminstone rent teoretiskt, kunde ha genomgått förändringar
under tiden som tjänsten var otillgänglig.
Resultatet från dessa sökningar presenteras i avsnitt 6 med sökdatum, antal
musikinspelningar med ordet Christmas i titeln inom de olika genrerna samt hur många
procent av samtliga musikinspelningar med ordet Christmas i titeln detta innebar vid det
aktuella söktillfället. Procentsiffran motsvarar recall-värdet för sökningen.
3.3.3. Det totala beståndet
För att kunna se hur många musikinspelningar som ingår i det totala beståndet har jag
vid ett flertal tillfällen gått igenom genrelistan och valt genre efter genre och noterat hur
många ljudspår som fanns kategoriserade inom respektive genre vid just det tillfället.
Sökningarna utfördes vid följande datum: 21/5 2007, 18/4 2008, 11/5 2009, 30/9 2009
och 6/10 2009.
Även vid dessa sökningar förekom det några gånger att Musikwebb blev otillgänglig. I
likhet med Christmas-sökningarna började jag då om från början för att förhindra att få
ett resultat vilket eventuellt inte representerade verkligheten.
Vad gäller det totala beståndet bör det noteras att ett ljudspår endast kan ha en
genrebeteckning, men finns det dubbletter kan detta innebär att samma ljudspår
16
förekommer i mer än en kategori, eller mer än en gång i samma kategori. Den summa
dessa sökningar resulterat i kan alltså sägas vara det totala antalet ljudspår hos
Musikwebb, men summan kan däremot inte sägas representera det totala antalet unika
ljudspår hos Musikwebb.
3.3.4. Konsekvensen av att ej använda auktoritetskontroll
För att avgöra vilken inverkan bristen av auktoritetskontroll har på Musikwebbs bestånd
valde jag att notera vilka av de 30 första artist- eller gruppnamnen under varje bokstav
som, i onödan, förekommer mer än en gång på den första sidan. Denna undersökning
skedde den 6/10 2009.
Vid artistsamarbeten i form av duetter och dylikt har jag vanligtvis valt att ej inkludera
dessa i min resultatredovisning. De är dock inkluderade vid tillfällen då artistsamarbetet
förekommer mer än en gång i onödan.
Jag har också valt att inte inkludera artister/grupper som förekommer på första sidan
trots att de ej borde förekomma där. Ett exempel på detta är Håkan Hellström som på en
musikinspelning fått namnet Haakan Hellstroem. Haakan Hellstroem förekom på första
sidan av bokstaven H. Dock återfanns inte namnet Håkan Hellström på första sidan av
H och detta medförde att jag ej inkluderade förekomsten av Haakan Hellstroem i min
resultatredovisning.
17
4. Tidigare forskning
I detta avsnitt presenteras tidigare forskning jag ansett vara relevant för föreliggande
uppsats. Avsnittet disponeras på så sätt att texter som behandlar Musikwebb redogörs
för i delavsnitt 4.1. Texter vilka indirekt behandlar Musikwebb samt andra digitala
musiktjänster beskrivs i delavsnitt 4.2. I det tredje delavsnittet redogörs för texter vilka
behandlar indexering av musik. Inom varje delavsnitt presenteras texterna i kronologisk
ordning.
4.1 Musikwebb
Vid Högskolan i Borås skrev Niklas Knutsson 2007 sin kandidatuppsats, Musikwebben:
Ett alternativ till illegal fildelning?. Syftet med Knutssons kandidatuppsats var att
försöka besvara frågan om Musikwebb kan vara ett fullgott alternativ till illegal
fildelning. För att kunna besvara detta valde Knutsson att göra en komparativ studie
mellan Musikwebb och fildelningstjänsten Limewire. Dels skedde detta genom att
jämföra beståndet hos de båda webbtjänsterna, men Knutsson valde även att undersöka
om Musikwebb, med sina då cirka 480 000 låtar, klarade att uppfylla de krav en
användare bör kunna ställa på en tjänst av det här slaget. 49
I den komparativa studien utgick Knutsson från Yahoos index av musikgenrer och vid
varje sökning slumpade han fram en av dessa genrer. Sedan slumpade han, på ett
liknande sätt, fram en artist eller grupp inom just denna genre. Totalt bestod Knutssons
urval av 75 olika artister och grupper. Av dessa 75 artister/grupp fanns det ett större
utbud på Limewire i 42 av sökningarna. 31 av sökningarna renderade i noll träffar hos
såväl Limewire som Musikwebb. I de två återstående sökningarna återfanns fler
sökträffar hos Musikwebb än hos Limewire. Det rådde alltså inget tvivel att Limewire
kunde erbjuda sina användare ett avsevärt större utbud vad gäller det urval Knutsson
slumpat fram. Tyvärr var Knutsson inte tillräckligt noggrann i samband med att han
skrev sin resultatredovisning. Vad som inträffade var att fyra av de undersökta artisterna
saknas i resultatredovisningen och det är alltså svårt att göra en ny studie med samma
urval.50
2008 skrevs magisteruppsatsen Musikwebb: En undersökning med fokus på urval,
service och digitalisering vid Högskolan i Borås och författarna av denna
magisteruppsats var Klara Cederstrand och Tove Hjorth. Syftet med deras uppsats var
att utröna hur bibliotekspersonal uppfattar Musikwebb vad gäller urvals- samt
serviceperspektivet.51 För att kunna besvara sina frågeställningar valde Cederstrand &
Hjorth att utföra fokuserade gruppintervjuer med bibliotekspersonal vid fyra olika
bibliotek vilka samtliga hade Musikwebb i sitt bestånd.52 Vad som främst varit av
intresse för mig ur deras uppsats är resultatredovisningen då det i denna stod att läsa hur
informanterna, det vill säga bibliotekarier, besvarade frågorna vid Cederstrand och
Hjorths fokusgruppsintervjuer. Det jag själv undersöker i innevarande uppsats var också
sådant som flera informanter valde att ta upp i de intervjuer Cederstrand och Hjorth
utförde.
49
Knutsson, Niklas 2007, s. 4ff.
Knutsson, Niklas 2007, s. 15ff.
51
Cederstrand, Klara & Hjorth, Tove 2008, s. 1.
52
Cederstrand, Klara & Hjorth, Tove 2008, s. 12f.
50
18
Informanterna vid bibliotek A berättade att ett antal användare hade påpekat att tjänsten
är något svår att använda.53 Likaså ansåg en av informanterna att det var svårt att söka i
Musikwebb därför att användargränssnittet inte var användarvänligt. Dessutom var
genreindelningen krånglig att förstå. Informanten önskade att Musikwebbs utvecklare
blivit mer inspirerade av allmusic vad gäller sökfunktioner samt information om artister
och grupper. Denne informant efterfrågade också en funktion som kunde tipsa om
liknande artister eller låtar. Informanterna vid bibliotek A var ense om att dylika
funktioner skulle göra Musikwebb mer attraktivt för användarna.54
4.2 Digitala musiktjänster
2004 skrev Ulrika Mild magisteruppsatsen Musik på Internet – framtiden för
bibliotekens musikavdelningar?. Mild spekulerade i sin uppsats om hur en musiktjänst
på Internet, som tillhandahålls av biblioteken, skulle kunna fungera. Milds studie
försökte även komma fram till vad en sådan nedladdningstjänst skulle innebära samt om
det finns intresse för en sådan tjänst bland användarna.55 Denna uppsats skrevs ett par år
före Musikwebbs tillkomst och behandlar då ej Musikwebb utan enbart vad en sådan
tjänst skulle kunna innebära.
För att kunna besvara sina frågeställningar valde Mild att utföra en enkätundersökning
och sedan följa upp denna enkätundersökning genom att utföra kvalitativa intervjuer
med fyra av de informanter vilka besvarade enkätundersökningen.56 Genom att
analysera resultaten från enkätundersökningen samt de efterföljande intervjuerna drog
Mild slutsatsen att användarna i en framtida musiktjänst på Internet borde ha möjlighet
att även kunna läsa recensioner och se liknande artister.57 Milds resultat var alltså
detsamma som vad Cederstrand och Hjorth kom fram till i sin uppsats om Musikwebb.
Vid Umeå universitet skrev Emma Lingman 2007 en magisteruppsats vid namn
Musikkonsumtion på Internet: En användarstudie av nedladdningsvanor relaterat till
musiktjänster på biblioteket. Lingmans syfte var att undersöka vilka faktorer som
påverkar nedladdning av musik från Internet och om bibliotekens musiktjänster kan
fungera som ett fullgott alternativ till fildelningsprogram. För att kunna besvara sina
frågeställningar valde Lingman att utföra fyra kvalitativa intervjuer med personer vilka
regelbundet laddar ner musik. I Lingmans magisteruppsats förekommer Musikwebb
frekvent. Anlednigen till detta var dock inte att Lingman analyserade tjänsten i sig utan
hon använde tjänsten som ett verktyg för att konkretisera sin studie.58
En av Lingmans fyra informanter ansåg att det var svårt att förstå hur Musikwebb
fungerade första gången hon skulle använda tjänsten. En annan av informanterna var
missnöjd med sidans design och sökfunktioner. Det denna informant saknade var en
sökfunktion för att kunna hitta ett helt album av en artist och informanten saknade
möjligheten att kunna låna ett album på samma sätt som man lånar enstaka låtar. Han
efterfrågade även mer information om album och artister och möjligheten att få tips om
liknande artister och vad som influerat dem, som man kan göra på allmusic. Denne
informants tips till utvecklarna på Musikwebb var att Musikwebb borde bli så lik
53
Cederstrand, Klara & Hjorth, Tove 2008, s. 29.
Cederstrand, Klara & Hjorth, Tove 2008, s. 30.
55
Mild, Ulrika 2004, s. 2.
56
Mild, Ulrika 2004, s. 37.
57
Mild, Ulrika 2004, s. 40ff.
58
Lingman, Emma 2007, s. 9.
54
19
allmusic som möjligt.59 Det sistnämnda är precis vad en av Cederstrand & Hjorths
informanter ansåg att Musikwebb skulle sträva efter.
I sin sammanfattande diskussion kom Lingman fram till att man på Musikwebb kan
använda sig av ”Artister A-Ö” och ”Genre” för att få inspiration, men att det kan bli en
stor nackdel för Musikwebb att de ännu inte implementerat funktionen similarity. Skulle
de göra det skulle Musikwebb kunna bli mer attraktiv för användarna.60 En annan
nackdel med Musikwebb ansåg Lingman vara att informanterna föredrog att kunna
behålla musikinspelningarna de laddar ner vilket inte är möjligt hos Musikwebb.61
Den gemensamma nämnaren mellan Lingmans uppsats, Milds uppsats samt Cederstrand
och Hjorths uppsats är alltså att i samtliga uppsatser har informanter efterfrågat
möjligheter att kunna se liknande artister och i två av uppsatserna har det dragits
paralleller till webbtjänsten allmusic. Musikwebb har gjort valet att inte licensiera
material från allmusic vilket däremot den största konkurrenten, Spotify, har gjort.
4.3 Indexering av musik
Min egen magisteruppsats behandlar ämnet musikindexering och jag anser det vara av
vikt att indexera musikinspelningar på ett sätt som är användbart för så många
användare som möjligt. Denna uppfattning framkommer också i den tidigare forskning
jag redogör för nedan, och vad som framkommer i den tidigare forskningen är att det
kan vara mycket svårt att lyckas skapa en kontrollerad vokabulär som är till så stor hjälp
som möjligt för de flesta indexerare och slutanvändare, vilket exemplen i detta
delavsnitt är tänkta att illustrera.
I mitten av 1980-talet utförde Harry Price en enkätundersökning där syftet var att
granska om det behövdes förändringar i Library of Congress ämnesordslista för jazz och
populärmusik. Om det efterfrågades förändringar ville Price även undersöka vilka
förändringar som behövde ske för att utöka användbarheten av systemet. Resultatet
publicerades i artikeln Subject access to jazz and popular music materials on library of
congress records.62 Enkätundersökningen visade att bibliotek vilka hade stora samlingar
ansåg sig vara mer missnöjda med den nuvarande ämnesordslistan än de bibliotek som
hade mindre samlingar. De missnöjda bibliotekarierna ansåg ofta att ämnesordslistan
inte var tillräckligt specifik i sina ämnesord. Dock fanns det bibliotek med ett litet
bestånd som ansåg att ämnesordslistan redan är en aning för specifik.63 Termen Music,
Popular (Songs, etc.) beskrevs ofta som i princip meningslös då termen är för bred. Det
förekom även en del klagomål på att vissa genrer saknade bra definitioner och att
bibliotekarierna då hade svårt att avgöra vad som var skillnaden mellan vissa genrer. I
svaren gick även att utläsa att flera olika termer behandlade samma genre. Något annat
som efterfrågades var mer specificerade termer för genrer under rockmusik.64 Det som
Price ansåg tydligast framkom i undersökningen var att det borde finnas bättre
definitioner av olika genrer i ämnesordslistan. Dock trodde han att det skulle bli mycket
svårt - kanske till och med omöjligt att lösa det problemet. Price ansåg också att
bibliotekarierna borde försöka att bli bättre på att hålla sig à jour med nya trender och
ett sätt att lösa detta skulle vara att uppmuntra bibliotek att tipsa varandra om nya
59
Lingman, Emma 2007, s. 20-27.
Lingman, Emma 2007, s. 30f.
61
Lingman, Emma 2007, s. 32.
62
Price, Harry 1985, s. 42f.
63
Price, Harry 1985, s. 45.
64
Price, Harry 1985, s. 45f.
60
20
trender.65 Slutsatsen man kan dra av den här undersökningen är den tämligen logiska
slutsatsen att det för större musiksamlingar också krävs mer specifika ämnesord om
beståndet ska kunna representeras på ett fullgott sätt, men att det inte nödvändigtvis
finns tillgång till en dylik vokabulär. Anledningen till att det kan vara svårt att finna en
fullgod vokabulär kommer jag till härnäst.
1991 skapade Ann Harrold och Graham Lea vad som var tänkt att vara en ny och
förbättrad musiktesaurus; Musaurus. Anledningen till att de ansåg att det behövdes
ytterligare en kontrollerad vokabulär för musik var att de inte ansåg att det fanns någon
som vid den tiden var tillräckligt väl strukturerad samtidigt som den var komplett.
Harrold och Lea parafraserade Star Trek och ansåg att Musaurus ”is prepared to boldly
go where no thesaurus has been before”. Syftet med Musaurus var att den skulle kunna
användas för indexering av musik, böcker, artiklar, tidningar m.m. 66
Ann Harrolds och Graham Leas tesaurusförsök blev dock inte så lyckat som de tänkt
sig. Tidskriften The Indexer recenserade deras förslag och dess recensent, Margaret L.
Christie, var måttligt imponerad och ansåg att Harrold och Lea lagt för stort fokus på
kritik gentemot andra kontrollerade vokabulär, inklusive sådana Christie själv ansett
fungera tämligen bra för sitt syfte. Christie hade dock själv haft problem med de
kontrollerade vokabulär som då fanns tillgängliga. Christies problem var att det
saknades bra ämnesord för musik skapad av kvinnor samt kammarmusik som inkluderar
engelskt horn. I Musaurus hittade dock Christie inte heller någon lösning vad gäller det
förstnämnda problemet då kvinnor saknades som term. I samband med det andra
problemet upptäckte Christie ett antal fel. Att Harrold och Lea dessutom blandat ihop
kvartett och kvintett förstärkte inte Christies intryck av Musaurus. Recensionen
avslutades med att Christie kunde konstatera att hon ansåg Musaurus vara en stor
besvikelse.67
Karin Axelssons magisteruppsats Att beskriva musik skrevs 2001 i syfte att försöka
besvara frågan om hur man gör för att beskriva musik samt hur musikinspelningar
lättast ska kunna återvinnas. Axelsson valde även att redogöra för vilka problem som
finns vid skapandet av kategoriseringen av musik. För att kunna besvara sina
frågeställningar valde Axelsson att göra en litteraturstudie samt utföra några kvalitativa
intervjuer med representanter för några av de svenska specialbibliotek och arkiv vilka är
inriktade på musiksamlingar.68 I likhet med min egen studie är specificitetsprincipen en
viktig aspekt i Axelssons magisteruppsats. Axelssons informant vid Grammonfonarkivet ansåg att ett problem är att det ofta kommer nya genrer inom populärmusiken
och nämnde acid-house som exempel. Denna genre fanns bara i ett år och försvann
sedan. Informanten tyckte att det är viktigt att ”tänka till en extra gång så att nya signum
blir mer långvariga”. Detta höll dock inte Axelsson med om och skrev således i
uppsatsen att hon anser resonemanget vara märkligt. Axelssons åsikt är att oavsett om
det inte längre skapas ny musik inom en genre har det ändå skapats musik inom genren
och den musik som skapats torde väl behöva denna kategorisering.69 Jag delar
Axelssons åsikt då de musikinspelningar som då kallades för acid-house fortfarande
torde kunna betraktas vara acid-house. Efterfrågar en användare musikinspelningar
inom en genre är det givetvis enklare för denne att hitta dem om de är indexerade som
acid-house än om de vore indexerade med en överordnad term.
65
Price, Harry 1985, s. 48.
Harrold, Ann & Lea, Graham 1991, s. 16f.
67
Christie, Margaret L. 1991, s. 295f.
68
Axelsson, Karin 2001, s. 5ff.
69
Axelsson, Karin 2001, s. 39f.
66
21
Informanten vid Statens Musikbibliotek förde också ett resonemang kring smala genrer
och specificitetsprincipen:
Experterna kan ju hitta på många namn; Cantrom från Thailand, Thaicambodian pop,
Kesak – apdans från Indonesien, Kriti – hinduisk religiös sång från Indien. Mento –
folkmusik från Jamaica inspirerad av calypso. Det är besvärligt. Gör man katalogen för
experterna som kan det här, eller lägger man det på en mera generell nivå för att flera
människor som ska kunna söka och hitta? Å andra sidan, de som är intresserade av det här
kan ju det här. Om dom ska få träff på sina sökningar, då ska det ju vara på den här
specificitetsnivån.70
I diskussionskapitlet kom Axelsson fram till vad som är ett problem vid kategorisering
av musikinspelningar och det är att flera musikkatalogisatörer anser att tiden inte räcker
till, detta leder i sin tur till att de inte har tid att lyssna igenom hela albumet ens en gång.
Många inspelningar lyssnas inte på alls och det förekommer att musikinspelningarna då
blir tilldelade en genre utifrån dess omslag. Detta, menar Axelsson, kan innebära
”feltolkningar och godtyckliga analyser”.71
I början av 2000-talet skapades Microsofts MSN Music Search Engine (MMSE). Denna
sökmotor bygger på similarity-principen. Känner en användare till en låt den gillar ska
sökmotorn kunna presenteras andra musikinspelningar som användaren förmodligen
kommer att uppskatta. Tanken bakom sökmotorn var att den skulle vara enkel att
använda, kunna innehålla miljontals låtar, sökresultaten skulle presenteras på max ett
par sekunder och sökträffarna skulle vara relevanta för sökningen.72 För att lyckas skapa
ett sådant här informationsåtervinningssystem användes musikvetare som klassificerade
katalogen. Totalt bestod musikkatalogen av några hundra tusen låtar och för
musikvetarna tog det 30 arbetsår att klassificera musiken. Arbetet utfördes med hög
kvalitet och resultaten blev mycket goda. Problemet var att resursåtgången var så hög
att Microsoft inte ansåg att det skulle vara möjligt att använda sig av manuell
klassifikation om antalet låtar vore flera miljoner.73 Att hög kvalitet tack vare manuellt
arbete kan rendera i höga kostnader ter sig tämligen självklart. Ett projekt är dock ofta
tänkt att kunna bära sig självt vad gäller projektkostnaderna. Alternativet är att
indexeringen sker på ett mer godtyckligt sätt vilket innebär högre risk att kvaliteten blir
lidande. Musikwebb hade den 6 oktober 2009 drygt 2,6 miljoner musikinspelningar i
sitt bestånd. Detta innebär att det antingen krävs att Musikwebbs indexerare är avsevärt
mer effektiva än de musikvetare Microsoft anlitat, att Musikwebb inte skyr några
kostnader vad gäller kvaliteten på indexeringen eller att kvaliteten på indexeringen kan
ha blivit lidande på grund av den stora mängden musikinspelningar som skall indexeras.
Hans Bally och Astrid Evasdotter skrev 2003 magisteruppsatsen Organisation av popoch rockmusiksamlingar i Sverige: En värderingsfråga? vid Högskolan i Borås. Syftet
med deras magisteruppsats var att ta reda på hur pop- och rockmusik organiseras vid
några av Sverige stora fonogramsamlingar samt att undersöka vilka problem som finns
vad gäller att organisera denna typ av musik.74 För att kunna besvara sina
frågeställningar valde Bally och Evasdotter att utföra intervjuer med representanter vid
Statens ljud- och bildarkiv (SLBA), Sveriges Radios grammofonarkiv i Stockholm,
musikaffären Skivhugget i Göteborg, Göteborgs stadsbibliotek, Läsesalongen vid
70
Axelsson, Karin 2001, s. 41.
Axelsson, Karin 2001, s. 54.
72
Dannenberg, Roger et al. 2001, s. 54.
73
Dannenberg, Roger et al. 2001, s. 54.
74
Bally, Hans & Evasdotter, Astrid 2003, s. 6.
71
22
Kulturhuset i Stockholm samt Artistens bibliotek vid Musikhögskolan i Göteborg.75
Denna uppsats anser jag vara väldigt intressant för min egen studie då Bally och
Evasdotter gjort en jämförelse mellan vad forskare inom biblioteks- och
informationsvetenskap anser om exempelvis specificitetsprincipen jämfört med vad
praxis tycks vara. Läsesalongen vid Kulturhuset uppvisade en pragmatisk syn på
kategorisering av musik då de ansåg att det skulle vara svårt för användarna att söka på
genrer om genrerna blir för snäva. Användarna kan då ha svårt att veta vilket namnet är
på den genre de eftersöker. Dessutom ansåg det att det är enklare att kategorisera musik
vid bruk av bred genreindelning då det annars går åt ”en massa tid till att lyssna igenom
och definiera vad [sic!] är vad”.76 Representanten vid SLBA hade en annan invändning
mot alltför specificerade genrer och det är att det innebär att samma artist kan spridas
över flera olika genrer, och det ansåg informanten är till användarens nackdel när denne
använder sig av genresökning för att återvinna intressant musik. Klassifikation är
dessutom subjektivt och använder sig organisationen av flera indexerare kan det lätt
uppstå inkonsekvens vid kategoriseringsprocessen. Samma artist kan komma att spridas
över flera genrer trots att samtliga musikinspelningar av denne artist egentligen borde
kunna återvinnas under en och samma genre.77 Bally och Evasdotter kom fram till att de
problem informanterna menar finns vid kategoriseringen av pop- och rockmusik är
ungefär desamma vid samtliga institutioner. Informanterna ansåg att ett väl specificerat
system ökar svårigheten för användarna att kunna bruka systemet, men det ökar även
svårigheten för indexerarna vid kategoriseringen. Vid ett stort antal valbara genrer krävs
det väldigt goda kunskaper av användare och indexerare för att musikinspelningarna ska
kunna tilldelas en korrekt kategori och sedan kunna återvinnas av användaren.78
Åsa Norlund skrev 2005 sin kandidatuppsats Musik och indexering i folkbiblioteken: En
analys av ämnesord och indexering i folkbibliotekens onlinekataloger vid Högskolan i
Borås. Syftet med Norlunds kandidatuppsats var att resonera kring de ämnesord som
används vid återvinning av musikinspelningar i folkbibliotekens onlinekataloger samt
vilka rutiner som finns för att klassificera nyss nämnda musikinspelningar. Norlund
avsåg att försöka se vilka brister som fanns i dåvarande system samt hur väl
ämnesorden kunde sägas representera musikinspelningarna som fanns i
onlinekatalogerna. För att göra detta utfördes en litteraturstudie där Norlund utgick från
Lancasters indexeringsteori för att sedan utföra en empirisk studie av de onlinekataloger
Gävle musikbibliotek och Örebro stadsbibliotek använde sig av. 79 Norlunds
kandidatuppsats uppvisar alltså en hel del likheter med min egen uppsats då vi båda
utgår från samma sorts indexeringsteorier för att sedan följa upp detta med en empirisk
studie. Norlund har dock valt att utföra sin empiriska studie i två onlinekataloger som
ett par folkbibliotek tillhandahåller och jag har valt att utföra den i Musikwebb.
Norlund kunde konstatera att SAB-systemets kontrollerade vokabulär innebär att
musikinspelningar åtnjuter olika grader av specificitet beroende på vilken genre dessa
kan sägas tillhöra. Enligt Lancasters specificitetsprincip skall indexeringstermerna vara
valda så att de representerar innehållet så specifikt som möjligt. I sin undersökning
märkte dock Norlund att detta inte alltid följdes av dem som tilldelar
musikinspelningarna ämnesord. Norlund efterfrågade även utökade möjligheter att
kunna avgränsa sökningar med utgångspunkt från andra kriterier som form, geografisk
lokation samt årtal då även dessa kan skapa specificitet. Ytterligare ett problem Norlund
75
Bally, Hans & Evasdotter, Astrid 2003, s. 24f.
Bally, Hans & Evasdotter, Astrid 2003, s. 39.
77
Bally, Hans & Evasdotter, Astrid 2003, s. 46.
78
Bally, Hans & Evasdotter, Astrid 2003, s. 60.
79
Norlund, Åsa 2005, s. 5f.
76
23
fann var att endast hela album tilldelas en genre, men, som Norlund säger, ”det är inte
ovanligt att ett album innehåller låtar med olika genretillhörighet”. 80 Annat som ej
överensstämde med Lancasters indexeringsteorier var att indexeringen ej varit
tillräckligt uttömmande, det vill säga att för få indexeringstermer använts vid
beskrivningen av innehållet på skivor och att det förekommer synonymer i den
kontrollerade vokabulären. Något som det, enligt Lancaster, ej skall göra utan en
namnform skall anses vara standard och de andra formerna skall hänvisa till denna
standard.81 Norlund fann även inkonsekvens i indexeringen vid det ena biblioteket då
skivor av samma artist och inom samma genre tilldelats olika termer. Detta,
konstaterade Norlund, kan inverka negativt för recall-värdet.82 I sin slutdiskussion kom
Norlund fram till slutsatsen att ”det viktiga i detta sammanhang är att hitta relevanta
termer som på ett bra sätt representerar musikinspelningen istället för att fastna i
diskussioner om dessa relaterar till ett ämne i traditionell mening eller ej.” 83 Precis som
framkommit i andra studier anser också Norlund att allmusic kan vara behjälplig vad
gäller att ge användarna en mer användarvänlig service. Norlund förespråkar även att
indexeringsprocessen skulle vara behjälpt av att en indexeringspolicy konstruerades.84
80
Norlund, Åsa 2005, s. 16ff.
Norlund, Åsa 2005, s. 22.
82
Norlund, Åsa 2005, s. 24.
83
Norlund, Åsa 2005, s. 33.
84
Norlund, Åsa 2005, s. 33f.
81
24
5. Teoretisk bakgrund
Under denna rubrik avser jag att presentera och förklara ett antal grundläggande termer
man bör ha i åtanke vid indexering. Avsnittet behandlar dels vad som bör göras för att
användarna ska kunna bruka ett system på ett så bra sätt som möjligt och dels vad som
bör undvikas vid indexering. Det vill säga, hur man undviker att indexera det som ska
indexeras på ett felaktigt sätt.
5.1 Katalogiseringsregler
År 1876 skapade Charles Cutter grundregler för att användarna ska kunna återvinna de
dokument de önskar. Syftet med en katalog ansåg Cutter vara att:
1. en användare ska kunna hitta en bok om denne känner till
a) författaren
b) titeln
c) ämnet
2. ett bibliotek ska kunna visa vad de har
d) av en viss författare
e) inom ett visst ämne
f) inom en viss typ av böcker
3. kunna hjälpa till i valet av en bok
g) genom dess upplaga
h) genom dess karaktär85
Dessa tre regler står sig relativt väl än idag. Dock anser Ross Harvey och Philip Hider
att det krävs vissa förändringar för att bättre motsvara dagens krav. För att Cutters regler
ska kunna användas i den virtuella världen anser Harvey och Hider att ett
informationsåtervinningssystem bland annat ska klara av att:
en användare ska kunna hitta information, oberoende av formatet, där författare,
titel, ämne eller andra karaktäristiska är kända
kunna visa upp vilken information som finns tillgänglig av en viss författare,
inom ett visst ämne (och närliggande ämnen) eller inom en viss typ av litteratur
och hur denna information kan vidarebefordras till användaren86
5.2 Kontrollerade vokabulär
En kontrollerad vokabulär kan innebära flera saker. Minimikravet för att en vokabulär
ska kunna kallas för en kontrollerad vokabulär är att vokabulären ska vara en begränsad
lista som innehåller standardiserade ord eller termer avsedda för indexering eller
kategorisering. Anledningen till att det kallas för kontrollerad vokabulär är att det endast
är dessa termer som ska användas för att beskriva dokumentets innehåll.87
85
Harvey, Ross & Hider, Philip 2004, s. 11.
Harvey, Ross & Hider, Philip 2004, s. 12.
87
Hedden, Heather 2008, s. 33.
86
25
Termen kontrollerade vokabulär brukar delas upp i tre större grupper; ämnesordslistor,
klassifikationssystem och tesaurer. Ämnesordslistorna är den enklaste formen av dessa
tre då det med en ämnesordslista kan vara svårt att särskilja hierarkiska nivåer samt
relationer mellan de olika termerna i den kontrollerade vokabulären.88 De flesta
kontrollerade vokabulärer omfattar funktionen att kunna se föredragna termer istället för
en annan term.89 Beroende på språket kan detta kallas för USE eller ANV där de
hänvisas från en term vilken ej får användas som godkänd term. Anledningen till detta
är att förhindra att synonymer finns med i den kontrollerade vokabulären.90
Syftet med att använda en kontrollerad vokabulär vid indexering och
informationsåtervinning är att utöka möjligheterna för konsekvent kategorisering.
Tanken är även att det ska bli lättare för användarna att finna relevanta termer som kan
representera den information användaren söker. Än mer användbart kan det bli om det
är flera indexerare som ska kategorisera informationen i databasen. 91 En kontrollerad
vokabulär behöver dock underhållas. Vissa termer kan bli obsoleta och andra termer kan
behöva infogas i vokabulären. Det är då viktigt att det finns rutiner för hur sådant sker.92
Det är även viktigt att anpassa termerna för målgruppen. Är användarna av den
kontrollerade vokabulären lekmän kan termen frimärkssamlande vara att föredra
framför termen filateli. Är däremot användarna av vokabulären forskare är i regel den
mer vetenskapliga termen att föredra.93 Ett alternativ till indexering med hjälp av en
kontrollerad vokabulär är att nyttja en okontrollerad vokabulär, till exempel en så kallad
folksonomi. Ett problem med indexering när man väljer att inte bruka en kontrollerad
vokabulär för indexering är att både precision och recall-värde kan sjunka avsevärt då
det inte sker någon synonymkontroll. Användarna måste då ha i åtanke de eventuella
synonymer som kan förekomma i systemet. Ett annat problem vid indexering med hjälp
av naturligt språk är att många av sökträffarna kan te sig irrelevanta för sökningens
syfte.94
I tidskriften The Indexer nämnde Jane A. Myers ett problem vad gäller indexering av
musik. Svårigheten är att en genre ibland inte blir dokumenterad innan genren redan
hunnit bli passé, då det är vanligt att nya genrer snabbt skapas inom populärmusiken.
Detta ställer högre krav på att indexerarna, samt de som utvecklar den kontrollerade
vokabulären, håller sig à jour med den nya musiken.95 I samband med Harry Price
slutsatser av den enkätundersökning han utförde kom han fram till att bibliotekarierna
borde försöka att bli bättre på att hålla sig à jour med nya trender och ett sätt att lösa
detta skulle vara att uppmuntra till samarbeten bibliotek emellan.96
Hellsten & Rosfelt, som utvecklat en handledning i ämnesordsindexering på uppdrag av
SAB:s kommitté för katalogisering och klassifikation, framhäver att nya ämnesord
måste kontrolleras med hjälp av exempelvis uppslagsverk, ordböcker, handböcker och
andra kontrollerade vokabulär. Det är också viktigt att kunna upptäcka synonymer och
att vara säker på att orden får rätt form och används på rätt sätt. Att rådfråga
ämnesspecialister kan också vara en lösning för att få rätt ämnesord.97
88
Lancaster, F. W. 2003, s. 19.
Hedden, Heather 2008, s. 33.
90
Benito, Miguel 2001, s. 261.
91
Hedden, Heather 2008, s. 33.
92
Benito, Miguel 2001, s. 271.
93
Lancaster, F. W. 1986, s. 61.
94
McKnight, Mark, Griscom, Richard & Young, J. Bradford 1989, s. 717f.
95
Myers, Jane A. 1995, s. 270.
96
Price, Harry 1985, s. 48.
97
Hellsten, Unn & Rosfelt, Margareta 1999, s. 30.
89
26
En mer avancerad form av en kontrollerad vokabulär är tesauren. En tesaurus är en sorts
ordbok som anger synonymer och alternativ till de olika termerna.98 Tesauren är
uppbyggd så att indexeringstermerna är ordnade såväl alfabetiskt som systematiskt.
Under var och en av dessa termer anges korshänvisningar och närbesläktade termer.99
Mellan de olika termerna finns det tre typer av samband. Det är dels
preferenssamband som hänvisar från en term som inte är godkänd till den föredragna
termen. Det kan bero på att termen är en synonym term, att det är en antonym term, att
det är en förkortning eller att termen kan stavas på olika sätt. Den andra sortens
samband är ett hierarkiskt samband. Det hänvisas då till en bredare eller smalare term.
Den tredje sortens samband är släktskapssambandet. Denna typ av samband är något
mer komplicerat än de föregående relationerna. Några exempel på släktskapssamband är
yrke – de yrkesverksamma (undervisning – lärare), termer som blir relaterade utifrån
dess egenskaper (regn – fuktighet), handling och konsekvens (nazivåld – våldsoffer),
delar av helheten och helheten (dörrar – hus).100 Som synes är en tesaurus avsevärt mer
avancerad än en kontrollerad vokabulär i form av en ämnesordslista där de
standardiserade termerna endast återges i alfabetisk ordning, det vill säga utan att ange
några hierarkiska samband. Detta innebär även att själva arbetet med att bygga upp en
tesaurus kräver mer resurser i såväl tid som kunskap.101 Ett vanligt problem vid
skapandet av en tesaurus är att termer som borde finnas med i den kontrollerade
vokabulären ej blir inkluderade. Andra vanliga misstag är att namnge termer med namn
vilka inte är lika passande som andra namn eller att inte ändra på, eller lägga till, termer
när så behövs. Utvecklaren av tesaurusen skall även undvika att lägga till termer inom
fel facett eller på fel plats inom rätt facett. Många av dessa problem kan undvikas
genom att använda sig av många ingångar i form av hänvisningar till närbesläktade
termer samt den term vilken är den godkända termen.102
Undviks fallgroparna är en tesaurus i regel bättre vid indexering och återvinning av
relevant information. Detta genom att sökningar kan bli mer preciserade och
användaren kan få hjälp genom att se relationer mellan termerna samt vad termerna
omfattar. Det sistnämnda genom notförklaringar.103 Just notförklaringar kan vara väldigt
användbara då de dels kan förklara vad som skall finnas under just den här termen, men
även hur termen ska eller inte ska användas. Det kan också hjälpa användaren att
undvika bruk av termer vilka kan betraktas vara snarlika synonymer, men det kan även
hjälpa användaren att hitta till bättre termer genom att notförklaringen anger vad som ej
är inkluderat under denna term och då hänvisa till de bättre termerna, det vill säga som
USE brukar användas.104
Varför är det så användbart att använda en tesaurus istället för en vanlig ämnesordslista?
För att besvara den frågan väljer jag att citera den dåvarande chefen för tekniska frågor
vid Laurie Music Library vid Rutgers University; Harriette Hemmasi: ”Keyword
searching is like shining a flashlight in the black hole of information: searchers see only
the spot on which their light shines”.105 Med detta avses att det förvisso är bra att ha
tillgång till en ämnesordslista. Dock kräver det även att användaren är medveten om hur
man tillgängliggör relevant information. Problemet är att en ämnesordslista inte är lika
98
Hedden, Heather 2008, s. 33.
Benito, Miguel 2001, s. 259.
100
Benito, Miguel 2001, s. 259f.
101
Benito, Miguel 2001, s. 267.
102
Hemmasi, Harriette 1994, s. 880.
103
Benito, Miguel 2001, s. 267f.
104
Lancaster, F. W. 1986, s. 70f.
105
Hemmasi, Harriette 1994, s. 875.
99
27
behjälplig i de fall där användaren är osäker på vad vissa termer innebär och omfattar.
Det är alltså en stor fördel om det finns möjligheter till notförklaringar i systemet.
5.3 Uttömmandegrad
Under kategoriseringsprocessen skall indexeraren utröna vad dokumentet behandlar,
varför det har blivit tillagt i beståndet samt vilka ingångar till dokumentet det kan
förmodas att användarna är intresserade av.106 Vid indexeringsprocessen måste
indexeraren via uppställda regler, eller på eget bevåg, avgöra hur många termer ett
dokument skall tilldelas. Vid djupare, eller mer uttömmande, indexering används desto
fler av de möjliga indexeringstermerna. Ju färre av de möjliga indexeringstermerna som
används desto lägre uttömmandegrad. Används endast en enda indexeringsterm är
indexeringen inte alls uttömmande.107 Används en hög uttömmandegrad är detta för att
det ska vara möjligt att finna dokument där ämnet förvisso förekommer, men där det
inte står i fokus. Används en låg uttömmandegrad är det inte möjligt att finna dokument
där ämnet förekommer endast ytligt utan bara där ämnet står i fokus. 108 Förutom att det
är lättare att återvinna dokument vid en uttömmande indexering ger detta även
användarna bättre möjligheter att ana sig fram till vad dokumentet behandlar. 109 När en
hög uttömmandegrad används inverkar det oftast positivt på recall-värdet, men det leder
förmodligen även till ett lägre precisionsvärde. Med detta avses att antalet återvunna
dokument troligtvis kommer att öka, men ökningen behöver inte nödvändigtvis vara av
godo då många av dokumenten kan vara irrelevanta för sökningen på grund av att
antalet ingångar till dokumentet utökas. Använder systemet sig istället av en låg
uttömmandegrad inverkar det oftast positivt på precisionsvärdet, men i gengäld tenderar
recall-värdet att sjunka.110 Med detta avses att de träffar användaren får har en tendens
att, i högre utsträckning, vara relevanta, men de kan i gengäld vara tämligen få.
Kombinationen uttömmande indexering samt specificitet brukar kallas indexeringsdjup.
111
5.4 Collaborative filtering och similarity
Collaborative filtering är en funktion vilken innebär att användarna blir presenterade
dokument som systemet, av någon anledning, tror att användaren kan anse vara
relevanta.112 Den stora fördelen med denna funktion är att den är tämligen enkel att
implementera i ett system.113 Syftet med funktionen är att tjänsten ska kunna tipsa andra
användare om vad de troligen skulle kunna uppskatta då människor ofta tillförlitar sig
på vad andra tycker i samband med att de ska göra sina val. Då det kan finnas miljontals
olika produkter kan det bli väldigt svårt för en individ att kunna rådfråga en expert. För
att lösa detta problem samlar man istället ihop många användares omdömen och skapar
en rekommendation.114 Den kanske mest kända varianten av collababorative filtering i
praktiskt användande är Amazons köprekommendationer. Dessa bygger på principen att
106
Lancaster, F. W. 2003, s. 9.
Harter, Stephen P. 1986, s. 114.
108
Harter, Stephen P. 1986, s. 114.
109
Lancaster, F. W. 2003, s. 9.
110
Chowdhury, G. G. 1999, s. 70f.
111
Rowley, Jennifer & Hartley, Richard 2008, s. 133.
112
Kleinberg, Jon & Sandler, Mark 2004, s. 569.
113
Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101.
114
Windhager, Eszter P. et al. 2006, s. 1.
107
28
sannolikheten ökar för att en användare ska vara intresserad av vara Y om denne är
intresserad av vara X.115
Den största nackdelen med collaborative filtering är att det vanligtvis krävs stora
mängder användare för att skapa den data som skall analyseras. Är det för få användare
och den datamängd som skall analyseras är för liten blir resultatet inte lika meningsfullt
att låta analysera då rekommendationerna kan bli mer slumpmässigt betonade.116
Detsamma gäller med nya produkter då en helt ny produkt ännu inte hunnit bli köpt av,
bli utlånad till, eller blivit betygsatt av särskilt många konsumenter. Ett tredje problem
är att vissa användares inköpsvanor skiljer sig så mycket från övriga användare att de
inte har någon nytta av en dylik funktion, och är det dessutom få användare kan dessa
användare skapa rekommendationer vilka snarare stjälper än hjälper.117
Similarity antyder att det finns ett samband mellan ett specifikt dokument och andra
dokument. För att finna ett samband kan systemet exempelvis ange vilka andra
dokument som hänvisar till detta dokument. En hänvisning till dokumentet antyder att
det finns något slags samband mellan ett specifikt dokument och de dokument som
hänvisar till detta dokument. Även dessa dokument kan då vara av intresse för
användaren. En variant på detta är att systemet utgår från källförteckningen i ett
dokument. De dokument vilka finns angivna där, antyder att det finns något slags
samband mellan just detta dokument och de dokument som anges i källförteckningen.118
En ytterligare variant på systemets tips till användarna är att utgå från en kontrollerad
vokabulär och där hänvisa till vilka överordnade, underordnade eller närbesläktade
termer vilka är tillgängliga i systemet. Just detta har dock redogjorts för i avsnittet om
kontrollerade vokabulär varför jag inte ytterligare beskriver det här.
5.5 Indexeringsfel
Använder sig en informationstjänst av en kontrollerad vokabulär är det viktigt att
indexeringen har skötts på ett bra sätt. Att indexera kan vara svårt då det till stor del
handlar om subjektivitet snarare än objektivitet. Indexeringsfel kan exempelvis bestå av
att en indexeringsterm uteslutits trots att den borde ha blivit inkluderad och vice
versa.119 Anledningen till detta kan vara att indexeringen skett för hastigt eller slarvigt.
Det är att föredra att en indexerare avsätter lite mer tid i samband med
indexeringstillfället än att det uppstår indexeringsfel och alla användare kan få problem
med informationsåtervinningen.120 Dock har en indexerare sällan gott om tid när ett
dokument skall indexeras. Indexeraren nödgas då fokusera på de viktigaste bitarna av
dokumentet och ändå försöka skapa ämnesord vilka reflekterar hela innehållet.121
Även om det finns en kontrollerad vokabulär till hjälp vid indexering kan inkonsekvens
uppstå vid indexering av två likvärdiga dokument. Detta kan bero på att två olika
indexerare har olika uppfattning om dokumentet eller att en indexerare har olika
uppfattning vid två olika indexeringstillfällen.122 Det krävs också att indexeraren har
115
Kleinberg, Jon & Sandler, Mark 2004, s. 569.
Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101.
117
Huang, Zan, Chung, Wingyan & Chen, Hsinchun 2004, s. 261.
118
Morville, Peter & Rosenfeld, Louis 2007, s. 160.
119
Harter, Stephen P. 1986, s. 114.
120
Hellsten, Unn & Rosfelt, Margareta 1999, s. 15f.
121
Lancaster, F. W. 2003, s. 24.
122
Lancaster, F. W. 2003, s. 68.
116
29
god kunskap om den kontrollerade vokabulären och förstår vilka termer som bör
användas vid vilka tillfällen. Lancaster exemplifierar detta med en berättelse om vad
som troligen skulle ske om han skulle låta en grupp oerfarna gymnasieelever indexera
några artiklar om medicin. Förmodligen skulle de inleda med att utföra arbetet på
ungefär samma sätt som en dator, det vill säga de skulle välja ord vilka är frekvent
förekommande i brödtexten samt ord från artikelns titel samt abstract och andra viktiga
delar av artikeln. Dessa ord skulle eleverna sedan omvandla till godkända termer genom
att använda Medical Subject Headings (MeSH). Lancaster tror att inkonsekvens vid
indexering nästintill garanterat skulle uppstå då eleverna troligen kommer att ha
problem att finna de korrekta termerna då de saknar tillräcklig medicinsk kunskap samt
vilken terminologi som används.123
För indexeraren är det viktigt att förstå vilka termer det är troligt att användarna
kommer att välja för att kunna återvinna dokumentet. Lyckas inte indexeraren med detta
ökar sannolikheten för att användarens recall-värde kommer att sjunka när denne
försöker återvinna dokument vilka är av intresse för sökningen. Det är även viktigt för
indexeraren att förstå vad dokumentet handlar om så att termerna, som ska beskriva
dokumentets innehåll, blir korrekt valda. Lyckas inte indexeraren med detta ökar
sannolikheten för att precisionen sjunker i samband med att användarna försöker
återvinna relevanta dokument. Oavsett om det beror på bristande kunskap hos
indexeraren eller att ett slarvfel begås, uppstår ett fel vid indexeringen. I förlängningen
innebär detta att användarna troligen blir drabbade av indexeringsfelen i samband med
sökningarna i systemet.124 När Lancaster evaluerade MEDLARS visade det sig att 10 %
av alla problem gällande recall berodde på att en viktig term hade uteslutits vid
indexeringstillfället. Uteslutandet av de flesta av dessa termer berodde på rent slarv.
Vissa av dem kunde dock bero på att den kontrollerade vokabulären var otillräcklig, till
exempel om indexeraren är osäker på vilken term som är den korrekta termen och det
saknas bra handledning i systemet, exempelvis i form av notförklaringar. Det kan då
vara lätt hänt att indexeraren väljer det enklaste sättet att lösa problemet på och inte bryr
sig om att infoga den termen istället för att riskera att välja fel term.125
Ett vanligt fel som kan uppstå när oerfarna indexerare kategoriserar dokument är att de
förutom den mest specifika nivån även väljer att tilldela dokumentet de överliggande
ämnesorden. Ett exempel på detta är om ett dokument som uteslutande behandlar
apelsiner även tilldelas de, förmodligen, närmast ovanstående termerna citrusfrukter och
frukter. Att göra på detta sätt innebär att dokument vilka behandlar ämnet citrusfrukter
kan bli svåra att återvinna. En bättre lösning på detta är att göra det möjligt att söka på
citrusfrukter samt alla underliggande termer.126 För att anknyta det här till musiktermer
vore det lämpligt om användarna kunde välja att söka på termen jazz och då söka dels
på musikinspelningar som hör hemma i en dylik huvudgenre. Användaren bör samtidigt
ha möjlighet att utföra sökningen i undergenrer till ämnesordet jazz och då också kunna
få träffar om det finns musikinspelningarna i underkategorin storbandsjazz som kan
betraktas vara relevanta för sökningen.
123
Lancaster, F. W. 2003, s. 73.
Lancaster, F. W. 2003, s. 85.
125
Lancaster, F. W. 1986, s. 149.
126
Lancaster, F. W. 2003, s. 34.
124
30
6. Resultatredovisning och analys
Då tabellerna är tämligen omfattande har jag valt att utföra analysen för respektive
sökning i samband med att resultatet för sökningen presenteras. Syftet med detta är att
underlätta för läsaren att kunna ta till sig informationen.
6.1 Genren audiobooks
6 oktober 2009 fanns följande album tillgängliga under kategorin audiobooks:
Artist
Album
Agnar Mykle
Allan Sherman
Allan Sherman
Allan Sherman
Allan Sherman
Allan Sherman
Allan Sherman
Allan Sherman
Allan Sherman
Danko Jones
Diverse kunstnere
Gert Heidenreich
Gert Heidenreich
Gert Heidenreich
Stjernene – Mannen Som Löper Etter Sin Hatt
Allan in Wonderland
Allan Sherman Live!
For Swingin' Livers Only
My Name Is Allan
My Son, The Folk Singer
My Son, The Nut
Rhino Hi-Five: Allan Sherman
Togetherness
The Magical World of Rock
Rotkäppchen
Brüder Grimm Märchenerzählungen Band 1
Die Geschichte von Kalif Storch
H.C. Andersen Märchenerzählungen Band 1
På Gamletun I Europa – Gjesterommet – Mens
Tiden Löper
Schalk Im Nacken – Frisch Vom Rill
Hans Herbjörnsrud
Heinz Erhardt
Inge und Wolfram Eicke und
Dieter Faber
Jeff Foxworthy
Johan Borgen
Kalle Sändare
Kjell Askildsen
Martin Lawrence
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Antal
spår
2
10
19
22
22
10
24
5
22
6
3
25
15
18
3
4
Der Notenbaum
20
Games Rednecks Play
Kaprifolium – Kråkene
Guldkorn
Carl Lange
Funk It
Die Erfolgsstory der No Angels
Die Erfolgsstory von Beyoncé Knowles
Die Erfolgsstory von Blue
Die Erfolgsstory von Britney Spears
Die Erfolgsstory von Christina Aguilera
Die Erfolgsstory von DJ Bobo
Die Erfolgsstory von Eminem
Die Erfolgsstory von Jeanette Biedermann
Die Erfolgsstory von Jennifer Lopez
Die Erfolgsstory von Justin Timberlake
12
2
13
1
14
20
22
22
11
20
12
11
22
22
22
31
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Star Hörbuch
Tarjei Vesaas
Various Artists
Wumpscut
Die Erfolgsstory von Robbie Williams
Die Erfolgsstory von Sarah Connor
Die Erfolgsstory von Scooter
Die Erfolgsstory von Shakira
Die Erfolgsstory von Yvonne Catterfeld
Hesten Frå Hogget – Vesle-Trask – Peparkorn –
Det Snör Og Snör
Gebrüder Grimms Märchen Sammlung
Body Census
Totalt antal spår
12
22
20
11
22
4
3
12
562
Tabell 6.1. En lista över de album som återfanns under kategorin audiobooks.
Vad som stod i fokus för denna testsökning var att studera optimeringskriterierna
precision samt exklusivitet. Ovanstående skulle ske genom att undersöka hur många
album som kan betraktas vara relevanta vid tillfällen då användaren efterfrågar
ljudböcker i kategorin audiobooks och hur hög precision som kan uppnås vid dylika
sökningar. Kriteriet exklusivitet undersöktes genom att se vilka, om några, problem vad
gäller indexeringsval som uppstod gentemot kategorierna dokumentär samt komedi.
I kategorin audiobooks fanns totalt 40 album. Alla dessa album borde dock inte ha blivit
kategoriserade med genrebeteckningen audiobooks. Agnar Mykles album är mycket
riktigt en ljudbok. Allan Shermans åtta album innehåller däremot uteslutande sånger
och skämt varvid dessa inspelningar snarare torde vara hemmahörande i kategorin
komedi.
Danko Jones, Rotkäppchen samt de tre album där Gert Heidenreich läser upp sagor av
bland annat H.C. Andersen och bröderna Grimm är samtliga bra exempel på
ljudinspelningar som bör kategoriseras med genrebeteckningen audiobooks. Det finns
dock ett par kommentarer vad gäller dessa inspelningar. Som synes heter ljudboken med
sagor av bröderna Grimm Märchenerzählungen Band 1 vilket antyder att det finns mer
än ett band av deras sagor. I Musikwebbs bestånd finns det också ett andra band med
fler av bröderna Grimms sagor. Dock har detta band, av någon anledning, blivit
indexerat som övrigt. Även när det gäller H.C. Andersen antyds att det finns mer än en
volym. Band 1 är dock den enda volym vilken tillgängliggjorts på Musikwebb.
Rotkäppchen är som sagt en ljudbok, men noterbart är att det inte anges någon artist
utan enbart att det är Diverse kunstnere vilka varit inblandande i inläsandet av denna
ljudbok. Att en artist/grupp är okänd förekommer då och då på musikinspelningar. Dock
har Musikwebb använt sig av principen en artist/grupp per album. Detta har medfört att
exempelvis Rotkäppchen inte blivit tilldelad några artister. Det har även inneburit att på
album med flera olika artister har det inte angivits några specifika artister för varje låt,
något som inte underlättar för användarna om de vill återvinna låtar som är inkluderade
på album med flera olika artister.
Hans Herbjörnsrud, Johan Borgen och Kjell Askildsen har blivit indexerade inom rätt
kategori, men Heinz Erhardt, Jeff Foxworthy, Kalle Sändare och Martin Lawrence
borde snarare placeras i kategorin komedi. Der Notenbaum är ett bra exempel på musik
för barn och borde därför ha indexerats med ämnesordet barnmusik.
Av de album jag hittills redogjort för har de inte varit några problem att utröna vilka
ämnesord som borde ha använts för att beskriva musikinspelningarna. Att det trots det
32
återfinns så många album inom denna kategori som borde ha placerats inom andra
kategorier är ett tecken på dålig indexering snarare än bristande exklusivitet mellan
klasserna.
Vad gäller den tyska serien Star Hörbuch är det dock svårare att avgöra i vilken kategori
dessa borde vara hemmahörande. Att placera dem i kategorin audiobooks innebär
förvisso inget indexeringsfel. Frågan är dock vilken kategori de bör placeras i;
audiobooks eller dokumentär? Att de är ljudböcker råder det ingen tvekan om, men var
och en av dessa böcker är utöver att vara en ljudbok också en dokumentär om en artist
eller en grupp. Råder det tvivel om vilken kategori ett dokument bör placeras i är det ett
tecken på att systemet inte använder sig av exklusivitet vid skapandet av ämnesord.127
Tarjei Vesaas album är en ljudbok innehållande fyra noveller. Gebrüder Grimms
Märchen Sammlung är också det en ljudbok. Dock har enbart de tre ljudspåren vilka
innehåller sagan Rotkäppchen blivit kategoriserade som audiobooks. Resterande 15 spår
på albumet/sagosamlingen återfinns, märkligt nog, i kategorin övrigt. I likhet med andra
inspelningen av Rotkäppchen saknas det även här korrekta artister angivna. Artisterna
kallas dock här Various Artists istället för Diverse kunstnere. Det avslutande albumet,
Body census, av gruppen Wumpscut borde definitivt inte ha placerats i denna kategori
då detta bands musik kan betraktas vara electromusik. Att albumet blivit placerat inom
denna kategori beror förmodligen på slarv från indexerarens sida.
Av de 40 album vilka kategoriserats med genrebeteckningen audiobooks är det enbart
11 album som definitivt hör hemma inom denna kategori. Ytterligare 15 album går att
placera inom denna klass, men de hör också hemma i en annan klass i systemet. Hela 14
album har blivit tilldelade en helt felaktig genrebeteckning. Jag skrev i metodavsnittet
att jag valt kategorin audiobook, som urval för en av mina testsökningar med anledning
av att ljudinspelningar i denna kategori bör vara relativt lätta att indexera. Till skillnad
från de flesta musikinspelningar ansåg jag att det torde vara sällsynt att en ljudbok har
inslag av flera olika kategorier av de kategorier vilka är tillgängliga i Musikwebb. Trots
detta har alltså 35 % av albumen placerats i kategorin audiobooks trots att de inte hör
hemma i denna kategori, något som helt klart kan betraktas vara ett problem. Dels är det
ett problem vad gäller precisionen inom kategorin audiobooks, men det inverkar även
negativt på recall-värdet inom kategorierna komedi och dokumentär. Än mer
problematiskt blir det vid en jämförelse med tabell 6.3 där det framgår att vid
undersökningsdatumet för denna sökning inte fanns några spår i kategorin dokumentär
och endast 42 spår i kategorin komedi. Det fanns alltså avsevärt fler spår i kategorin
audiobooks som borde vara hemmahörande i kategorierna dokumentär och komedi än
vad som återfanns i dessa två kategorier.
Utifrån det urval jag gjort anser jag att indexerarna inte lyckats särskilt väl med
indexeringen inom denna kategori. Med precision avses hur väl användaren lyckas
undvika irrelevant dokument, i det här fallet musikinspelningar som inte är ljudböcker,
samtidigt som denne återvunnit relevanta dokument, det vill säga ljudböcker.128
Använder sig användaren av en genresökning kommer precisionen att bli låg då många
av de dokument som återvinns kanske inte alls kan betraktas vara relevanta. Ytterligare
en aspekt som kan inverka negativt på precisionen är att det inte finns någon möjlighet
att filtrera på språk. Ingen av de ljudböcker som kan återvinnas inom denna kategori är
på svenska och endast ett album är på engelska. I urvalet för denna testsökning
uppvisade Musikwebb klara och tydliga brister vad gäller exklusivitet mellan klasserna
127
128
Ranganathan, S. R. 1989, s. 160.
Rowley, Jennifer & Hartley, Richard 2008, s. 294.
33
då det dels förekom många ljudböcker som lika gärna kunde ha blivit placerade i
kategorin dokumentär. Det förekom även många musikinspelningar som snarare torde
höra hemma i kategorin komedi. Att det fanns så många indexeringsfel innebär att
precisionsvärdet blir tämligen lågt om en användare efterfrågar ljudböcker och använder
sig av en genresökning. Dessa indexeringsfel medförde i sin tur även att recall-värdet
skulle sjunka avsevärt om en användare skulle bruka genresökning för att återvinna
musikinspelningar i kategorierna komedi och dokumentär.
6.2 Sökordet Christmas
Följande är det resultat som framkommit vid de fyra sökningar som utförts hos
Musikwebb där ordet Christmas ska ha funnits med i spår- eller albumtiteln:
Genre / Datum 20081124
20090311
20090511
20090824
0
0%
0
0%
0
0%
4
0%
ambient
2
0%
2
0%
2
0%
2
0%
audiobooks
58
1%
58
0%
58
0%
175
1%
barnmusik
25
0%
27
0%
28
0%
127
1%
blues
332
3%
359
3%
359
3%
378
2%
country
48
0%
58
0%
58
0%
95
0%
dance
1
0%
1
0%
1
0%
32
0%
electronica
105
1%
116
1%
116
1%
149
1%
folkmusik
106
1%
200
2%
200
2%
218
1%
gospel
38
0%
40
0%
40
0%
55
0%
hiphop
472
4%
540
4%
579
4%
673
4%
jazz
207
2%
207
2%
184
1%
370
2%
julmusik
2153
20%
2405
18%
2477
19%
2878
15%
klassisk
69
1%
0
0%
0
0%
0
0%
komedi
22
0%
22
0%
22
0%
23
0%
körmusik
11
0%
11
0%
11
0%
12
0%
latin
14
0%
16
0%
16
0%
17
0%
metal
5
0%
8
0%
6
0%
6
0%
musicals
4181
40%
4665
36%
4612
35%
4946
26%
pop
639
6%
471
4%
507
4%
546
3%
pop&rock
197
2%
114
1%
114
1%
162
1%
populärmusik
113
1%
163
1%
176
1%
199
1%
r&b/soul
1
0%
1
0%
1
0%
21
0%
religiös musik
122
1%
182
1%
179
1%
235
1%
rock
25
0%
33
0%
33
0%
42
0%
soundtrack
7
0%
74
1%
84
1%
160
1%
världsmusik
1566
15%
3308
25%
3470
26%
7685
40%
övrigt
Totalt antal
10519 100% 13081 100% 13333 100% 19210 100%
spår
Tabell 6.2. En lista över antalet spår inom respektive genre som innehöll ordet Christmas i sin
spår- eller albumtitel. Procenttalet anger vilket recall-värde som kunde uppmätas inom respektive
genre.
34
Anledningen till att jag genomförde de här testsökningarna var att jag ville undersöka
vilket recall-värde en användare kan förvänta sig om den använder sig av genresökning
och då väljer kategorin julmusik för att återvinna musikinspelningar vilka innehåller
ordet Christmas i titeln.
Att använda sig av en kategori med namnet julmusik innebär vanligtvis att det uppstår
problem vad gäller exklusivitet. Antalet spår vilka kan betraktas vara hemmahörande i
denna kategori, men inte i någon annan kategori, torde vara försvinnande få. Än värre
kan det bli om musikinspelningen exempelvis är ett soundtrack från en film där filmen
har ett jultema. Det torde då finnas minst tre kategorier dylika spår kan betraktas vara
hemmahörande i. Då Musikwebb valt att bruka en kategori vilken kan sägas fungera
som en slags samlingskategori för ett flertal olika genrer krävs att det görs ett
avvägande om vilken kategori ett visst spår bör betraktas vara främst hemmahörande i.
Exklusivitet är dock inte ett krav på en tjänst utan något som kan underlätta vid
återvinning av dokument. Vill Musikwebb använda sig av en kategori vilken är tänkt att
samla julmusik från olika genrer kan det i gengäld underlätta för användarna när de
efterfrågar julmusik. 1876 fastslog Cutter att den föredragna termen är den term det är
mest troligt att användarna skulle använda vid sökningen.129 Förväntar sig användarna
att all julmusik skall återfinnas i kategorin julmusik innebär detta att det rimligtvis
också kan betraktas vara den föredragna termen.
Som kan ses i tabell 6.2 används kategorin julmusik sällan för att beskriva
musikinspelningar som innehåller ordet Christmas i sin titel. Vid de fyra
undersökningar, vilka genomförts under ett tidsspann på nio månader, har mycket få av
musikinspelningarna med Christmas i titeln betraktats vara hemmahörande i kategorin
julmusik. Skulle en användare förvänta sig att finna alla jullåtar, med ordet Christmas i
spår- eller albumtiteln, i kategorin julmusik och använda sig av en genresökning skulle
recall-värdet bli så lågt som 1-2 %.
Ju färre av de möjliga indexeringstermerna som kan användas för att kategorisera en
musikinspelning desto lägre uttömmandegrad. Musikwebb använder sig av endast en
indexeringsterm och indexeringen kan då betraktas vara inte alls uttömmande.130 Det är
alltså inte möjligt att placera ett spår i kategorin pop samt kategorin julmusik. Detta kan
naturligtvis vara en av förklaringarna till att kategorierna klassisk och pop innehåller en
stor procentandel av de musikinspelningar som innehåller ordet Christmas i titeln – att
låtarna kan betraktas vara jullåtar har indexeraren inte ansett ha någon betydelse och
placerat dem i den kategori de normalt sett skulle vara hemmahörande i. Av det totala
antalet spår som har ordet Christmas i titeln återfanns i kategorierna klassisk och pop
sammanlagt 60 %, 54 %, 54 % och 41 % av musikinspelningarna i samband med de
undersökningar som genomförts. Den tredje av de kategorierna med en hög
procentandel av dessa låtar är kategorin övrigt. Nyss nämnda kategori har stadigt ökat
från 15 % vid första undersökningen till hela 40 % vid den senaste undersökningen. Att
ha en sådan stor andel i en kategori där musikinspelningar endast bör placeras vid
tillfällen då det inte finns någon annan lämplig kategori för dem anser jag vara
anmärkningsvärt då det helt klart finns ett lämpligt ämnesord att tilldela
musikinspelningarna. Att kategorin julmusik inte används på ett sådant sätt som
åtminstone jag förväntat mig råder det ingen tvekan om. Utöver detta kan man ställa sig
frågande till på vilket sätt kategorin övrigt används. Jag tror inte att det skulle lösa
problemen, men det skulle förmodligen underlätta för användarna om Musikwebb
129
130
Lancaster, F. W. 1986, s. 61.
Harter, Stephen P. 1986, s. 114.
35
kunde motivera sin val genom att exempelvis använda sig av notförklaringar och på så
sätt beskriva hur de olika kategorierna bör användas.
Vad som tydligt framgår i samband med dessa testsökningar är att kategorin julmusik
inte kan betraktas vara en alltför lämplig kategori att leta i då användaren vill finna så
mycket julmusik som möjligt. Vid en jämförelse med figur 6.3 framgår att det enbart i
kategorin pop finns fler spår med ordet Christmas i titeln än vad det finns spår totalt i
kategorin julmusik. Att ha med en sådan här kategori i vokabulären innebär även att det
finns brister vad gäller exklusivitet då musikinspelningarna vanligtvis kan betraktas
vara hemmahörande i flera olika kategorier. Utifrån analysen anser jag det vara
tveksamt om genren julmusik alls bör förekomma. Dels därför att den inte kan betraktas
vara exklusiv, men än mer därför att recall-värdet blir så lågt eftersom användarna inte
kommer att hitta mer än en bråkdel av låtarna med Christmas i titeln i kategorin
julmusik.
6.3 Det totala beståndet
Följande är antalet
undersökningsdatum:
Genre / Datum
ovrigt
acapella
alternativ
ambient
americana
audiobooks
avantgarde
barnmusik
big band
blues
boogie woogie
cabaret
country
country/rock
dance
dokumentär
electronica
etnisk musik
flamenco
folk
folkmusik
folk/pop
folk/rock
gospel
hiphop
jazz
spår som
återfunnits
i
respektive
genre
vid
angivet
20070521 20080418 20081122 20090511 20090930 20091006
74270
10
10
10
10
10
10
1279
179
263
275
309
1979
1979
87
238
263
263
668
668
76
491
458
390
601
562
979
979
979
993
994
994
4886
7074
5507
8443
33354
34159
67
67
67
67
67
1926
4640
5542
8452
41522
41834
31
31
31
31
32
32
228
330
330
330
345
345
8466
21537
25308
29157
50109
51809
10
10
10
10
10
10
1929
8894
16213
25761
71805
73537
5
5
0
0
0
4776
7471
11348
13634
65778
67153
357
1314
1288
1331
1907
1907
17
17
29
42
45
45
26
26
26
26
26
9621
13960
16806
19527
39563
40126
3968
4607
4623
4793
4953
4944
605
1071
1204
1202
1273
1281
685
3117
4579
5804
8797
8957
2234
13178
16296
25888
65217
67080
36824
64020
73424
92351
169148
171969
36
julmusik
klassisk
komedi
kyrkomusik
körmusik
latin
metal
musicals
pop
pop&rock
populärmusik
ragtime
reaggae
reggae
r&b/soul
religiös musik
rock
rockabilly
salsa
soundtrack
spiritual
string swing
tango
trad. dance
trad. jazz
visor
världsmusik
övrigt
Totalt antal spår
2336
83470
248
1246
735
1456
427
215858
5223
3498
55
3205
3599
30754
167
27
2493
352
630
69
1546
163
2149
1621
12233
527003
2465
136234
1909
356
1450
5049
6192
506
321744
158451
20542
41
22
405
13146
4199
54703
193
8
8886
410
665
69
1574
174
2207
6785
17998
919733
1882
184931
1058
333
1241
5852
8690
2532
400555
152221
22085
55
1724
201170
53
333
1335
7562
13670
3692
521151
146404
24950
55
2125
296766
42
293
1355
13612
26501
5975
629785
219980
46710
55
2145
300288
42
293
1355
14020
27344
6057
643115
225618
47338
55
272
14726
2088
81881
193
18
10835
313
665
69
1664
174
2192
8912
58832
1148890
328
26266
3106
128567
181
18
14297
348
653
75
1643
174
2192
15525
124796
1479082
396
48577
10863
218933
197
17
33286
347
637
156
1623
174
2093
155530
267297
2541528
396
48974
11238
229794
197
17
33765
347
637
142
1623
174
2093
160085
275150
2601796
Tabell 6.3. En lista över antalet spår inom respektive genre samt det totala antalet spår.
Anledningen till att jag valde att föra statistik över det totala antalet musikinspelningar i
Musikwebbs bestånd var därför att det kan ge vägledning för att se om kategorierna kan
betraktas vara exklusiva gentemot varandra och/eller om Musikwebbs indexerare har
valt att följa specificitetsprincipen. Statistiken var även tänkt att vara till vägledning för
att kunna avgöra huruvida Musikwebbs vokabulär innehåller tillräckligt många
kategorier eller om antalet kategorier är för många, eller för få.
Beståndet hos Musikwebb utökas hela tiden och antalet musikinspelningar som
tillkommit till beståndet mellan varje testsökning är många. Vissa musikinspelningar
har dock blivit inlagda i databasen flera gånger. Detta kan exempelvis bero på att två
olika bolag har gett ut samma skiva, att det kommit en nyutgåva av skivan eller att ett
misstag har skett. Den senaste och näst senaste undersökningen skedde med endast en
veckas mellanrum och under denna tidsperiod tillkom alltså drygt 60 000 spår till
Musikwebbs bestånd.
37
Vid den senaste sökningen jag utförde fanns det 2 601 796 spår fördelade på 51 genrer.
Detta innebar att snittantalet spår per genre då var drygt 50 000 (51 015,6). Den största
av dessa kategorier innehöll 643 115 spår (pop) och den minsta av dessa kategorier
innehåller inte ett enda spår (dokumentär).
Vad man bör ha i åtanke är att om indexeringstermerna blir för breda kan det medföra
problem vid effektiv återvinning då varje term kan täcka in ett stort antal låtar. Träffarna
och termerna kan då minska i relevans vid det praktiska användandet.131 Det stora
problemet detta medför är att genresökningar ofta blir i princip meningslösa. Det finns i
princip ingen möjlighet att bläddra sig igenom så många sidor som ett stort antal av
dessa genrer skulle kräva för att användaren ska kunna ta del av hela utbudet inom
denna kategori. Musikwebb tycks ha valt att inte använda sig av specificitetsprincipen
utan istället begränsat antalet genrer. Detta förfarande kan dock ha en gynnsam effekt
vad gäller exklusivitet. Denna term innebär att samtliga genrer ska stå fria från varandra
och att det inte ska finnas material som kan placeras i mer än en genre. 132 Ett problem
som lätt kan uppstå om genrer överlappar varandra är att det blir svårare för indexerarna
att vara konsekventa i sin kategorisering.133 Ju färre genrer desto enklare bör det vara att
få genrerna att vara exklusiva gentemot varandra. Tyvärr uppvisas även här stora brister
gällande återvinningseffektiviteten. Dels är kategorier som musicals, soundtrack och
julmusik inte exklusiva då musikinspelningarna som kan betraktas vara hemmahörande
här nästintill per automatik också kan betraktas vara hemmahörande i minst en annan
kategori. Vad skiljer exempelvis mellan kategorierna folk och folkmusik? Kategorin
folk innehåller endast 26 spår varvid det går att anta att dessa spår tilldelats en
genrebeteckning som inte borde existera. Hur avgörs vilken av kategorierna pop,
pop&rock och rock som bör väljas? Hur ska användarna kunna veta vilka spår som bör
höra hemma i kategorin religiös musik och vilka som snarare är hemmahörande i
kyrkomusik? Dessutom torde kategorierna gospel och spiritual innehålla såväl religiös
musik som körmusik och var placeras musikinspelningar av kyrkokörer? Körmusik,
kyrkomusik eller religiös musik?
Som synes använder sig Musikwebb inte av en särskilt hög grad av specificitet
samtidigt som många kategorier inte heller verkar vara exklusiva gentemot varandra.
Jag anser att det skulle behövas hierarkier, avsevärt mer genrer, och än mer
notförklaringar, för att användarna ska kunna nyttja genresökningar på ett bra sätt.
Ytterligare effekter bristande exklusivitet får är att recall-värdet riskerar att bli lågt då
det närmast kan bero på slumpfaktorn om ett album är kategoriserat som en genre
snarare än en annan genre. Likaså kan precisionsvärdet sjunka avsevärt när en genre är
för bred. Det finns få möjligheter för en användare att hitta liknande musik om denne
hittat en musikinspelning denne gillar i någon av de bredare genrerna.
Jag har redan delat ut kritik till kategorin övrigt och här ser man återigen problemet med
att bruka en dylik genre. Rimligtvis bör man använda en kategori som övrigt högst
sparsamt och endast när det är svårt att placera den i någon av de övriga kategorierna.
Musikwebbs indexerare har dock valt att nyttja detta ämnesord till mer än tio procent av
musikinspelningarna. Det går inte att dra några andra slutsatser än att detta har skett
genom bristfällig indexering eller så klarar inte Musikwebbs vokabulär av att
representera musikinspelningarna på ett fullgott sätt.
131
Harter, Stephen P. 1986, s. 114.
Ranganathan, S. R. 1989, s. 160.
133
Lancaster, F. W. 2003, s. 79.
132
38
6.4 Konsekvensen av att ej använda auktoritetskontroll
Att inte använda sig av auktoritetskontroll medför att många olika namnformer kan bli
aktuella för en och samma artist. Vid katalogisering kan det alltså vara bra att använda
auktoritetskontroll då detta innebär att det går att nyttja en standardiserad namnform
istället för att bruka det namn som för stunden verkar vara mest passande när
katalogisatören ska infoga musikinspelningen i katalogen.134 Syftet med denna
undersökning var att studera vilka problem som kan uppstå vad gäller recall samt om
det finns en hög sannolikhet för att det kan uppstå problem på grund av att Musikwebb
har valt att ej använda sig av auktoritetskontroll. Som kan ses i tabell 6.4 kan det lätt
uppstå fel, särskilt om katalogisatören ser fel på en nolla och ett o. Fast ett än enklare
misstag är att använda en gemen istället för en versal och vice versa vid
katalogiseringen av två olika musikinspelningar.
Nedan följer de artister/grupper som i urvalet återfanns minst en gång för mycket i
urvalet:
A Balladeer
a balladeer
B. B. King
B B KING
B Crew feat. Barbara Tucker, Dajae,
Ultra Nate and Mone
B Crew Feat. Barbara Tucker, Dajae,
Ultra Nate And Mone
Cab Calloway
Cab Calloway & His Orchestra
Cab Calloway And His Orchestra
Cab Calloway and His Orchestra
Cab Calloway Orchestra
Earl 16
Earl ”16” Daley
Fab 5
Fab-5
G Club
G Club Presents Banda Sonara
G Club Presents Banda Sonora
H2O
H20
I Barocchisti & Diego Fasolis
I Barocchisti, Diego Fasolis
J Dilla (aka Jay Dee)
J Dilla aka Jay Dee
J. Hunsberger
J Hunsberger
134
K. J. Yesudas
K J Yesudas
L14,16
L14,16 (Axel Schlosser, Steffen Weber,
Rainer Boehm, Arne Huber, Lars
Binder)
La Barberia Del Sur
La Barbería Del Sur
M. Pokora
M Pokora
M. Rodriquez
M Rodriguez
M. Ward
M Ward
N30
N3O
Nabeel Shuail
Nabeel Shuiel
Nach
Nach Scratch
Qbo
QBO
R. Kelly
R Kelly
R. Kelly & Jay Z
R. Kelly & Jay-Z
R. W. Hampton
R W Hampton
Vellucci, Sherry L. 2001, s. 541f.
39
U. Brown
U Brown
U-Cef
U-cef
Václav Neumann
Václav Neumann & Czech
Philharmonic Orchestra
WADDIE MITCHELL
Waddie Mitchell
X
x
X Ray Pop
X ray pop
Zafer Gündodu
Zafer Gündogdu
Åsne Valland
Åsne Valland Nordli
Tabell 6.4. En lista över de namn som förekom fler än en gång inom urvalet för min studie.
Den praktiska konsekvensen av att inte använda sig auktoritetskontroll i Musikwebb är
bland annat att det tar längre tid att bläddra sig fram bokstav för bokstav då vissa artister
kan förekomma ett flertal gånger. Dessa upprepade namn tar helt enkelt upp onödig
plats i databasen. Vad som är mer problematiskt är att recall-värdet kan försämras. Som
angavs i metodavsnittet förekom, på en av musikinspelningarna, namnformen Haakan
Hellstroem istället för det korrekta Håkan Hellström Söker en användare på Håkan
Hellström återvinns samtliga musikinspelningar där hans namn är benämnt som Håkan
Hellström. Har hans namn däremot, på någon eller några av hans musikinspelningar,
blivit Haakan Hellstroem kommer dessa inte att återvinnas.
Under undersökningen lade jag märke till att resultatet kan delas upp i fyra delar
beroende på vilken typ av fel som uppstått, varför det har uppstått och hur problematiskt
felet är.
Den första delen är de namn vilka enbart skapar en extra, och onödig, ingång. Dessa är
exempelvis X – x och A Balladeer – a balladeer. Det enda som skiljer dem åt är att det
vid det ena exemplet använts versal i början av namnet och i det andra exemplet har en
gemen använts. Dylika exempel påverkar inte återvinningen alls då bägge
namnformerna är en ingång till samma musikinspelningar.
Den andra typen av exempel är de där det dels skapats en extra ingång, men där
problemet även kan inverka negativt på återvinningseffektiviteten. Dessa exempel är de
där ett eller flera skiljetecken används i namnet. Exempel på detta är R. Kelly – R Kelly
och J Dilla (aka Jay Dee) – J Dilla aka Jay Dee. Det finns här en viss risk för att
återvinningen ska försämras. Hur stor risken är beror på om användaren brukar
skiljetecken vid sökningar. Gör denne det blir risken väldigt hög och gör användaren
inte det innebär denna typ av exempel att det enbart skapats en extra ingång i onödan.
Den tredje typen av exempel är de där ett eller flera namn tillkommit. Detta innebär dels
en extra ingång, men också en högre risk för att återvinningseffektiviteten försämras.
Huruvida återvinningseffektiviteten försämras beror på vilket namn användaren väljer
att söka på. Exempel på detta problem är Václav Neumann – Václav Neumann & Czech
Philharmonic Orchestra. Anledningen till att Václav Neumann återfinns på den här
listan är att även de musikinspelningar vilka återfanns under hans eget namn var
inspelade tillsammans med Czech Philharmonic Orchestra. Ett annat exempel är Cab
Calloway. En del av de musikinspelningar som återfanns där Calloway stod som
soloartist var i själva verket med Cab Calloway and His orchestra. Är användaren
intresserad av att återvinna alla musikinspelningar med Cab Calloway and his
Orchestra, men inga andra musikinspelningar, är detta ej möjligt. Var och en av
40
ingångarna Cab Calloway, Cab Calloway & His Orchestra, Cab Calloway [A/a]nd His
Orchestra och Cab Calloway Orchestra leder till olika musikinspelningar trots att
samtliga av dessa ingångar borde leda till samma bestånd. Problemet gäller dock med
undantag för de musikinspelningar som återfanns under namnet Cab Calloway och där
det verkligen var soloartisten Cab Calloway som åsyftades.
Den fjärde typen av exempel är de där en extra ingång tillkommit, men där risken för att
återvinningseffektiviteten försämras är väldigt hög. Exempel på när detta förekommer
är H2O – H20 och Nabeel Shuail – Nabeel Shuiel. Det första exemplet bygger på att
siffran noll och bokstaven O kan se snarlika ut. Det andra exemplet torde bero på att
namnet är översatt från det arabiska skriftspråket och att översättningarna skiljer sig åt.
Vad gäller dylika problem är det väldigt svårt för användaren att undvika ett försämrat
recall-värde.
Med utgångspunkt ur denna testsökning kunde jag notera att det fanns vissa problem
som uppstått då auktoritetskontroll på Musikwebb saknas. Den stora majoriteten av
namnen var dock, utifrån urvalet, unika. Likväl fanns det exempel på namnformer som
kommer att innebära recall-problem för användarna. I värsta fall kommer användaren
nästan garanterat att gå miste om vissa av musikinspelningarna då en helt felaktig
namnform använts. I lindrigaste fall, men där det likväl innebar ett problem, skapas
enbart en extra ingång.
41
7. Diskussion och slutsatser
Jag har valt att inleda detta avsnitt med att repetera mitt valda syfte samt mina
frågeställningar då det är vad detta avsnitt är tänkt att behandla och besvara.
Syftet med denna studie är att undersöka den ämneskategorisering som har utförts på ett
urval av de ljudfiler Musikwebb tillhandahåller i sitt bestånd, samt Musikwebbs
kontrollerade vokabulär. Syftet är även att studera på vilket sätt ämneskategoriseringen
samt sökfunktionerna inverkar på återvinningseffektiviteten. Syftet är också att resonera
om vilka förändringar jag anser skulle gynna Musikwebb vad gäller
återvinningseffektivitet och ämneskategorisering.
För att konkretisera syftet har jag valt följande frågeställningar:
Om det finns några problem vad gäller ämneskategorisering i det urval jag gjort
för mina testsökningar, vilka är då dessa problem?
Om det utifrån mina testsökningar framkommer att det behövs förändringar av
Musikwebbs kontrollerade vokabulär, vilka är då dessa förändringar jag anser
behövs?
Jag anser att användarna lätt och effektivt ska kunna finna de musikinspelningar de
själva efterfrågat samt kunna få rekommendationer om musikinspelningar de indirekt
efterfrågat. För att detta skall vara möjligt krävs att musikinspelningarna tilldelats
ämnesord som kan sägas representera innehållet på ett bra sätt. Musikwebb använder sig
inte av uttömmande indexering vilket gör att det blir än viktigare att den enda term
musikinspelningarna tilldelas faktiskt är korrekt. Finns det brister i indexeringen sjunker
återvinningseffektiviteten. Det är då ett stort problem att termer som existerar i
Musikwebbs ämnesordslista dels används på fel sätt, och dels har jag upptäckt att det
verkar vara vanligt att termerna ofta inte är exklusiva. Detta medför att det lätt uppstår
indexeringsfel vilket i sin tur kan medföra problem för användarna av Musikwebb.
I kategorin audiobooks förekom till viss del ljudböcker, men det var även vanligt med
musikinspelningar som borde ha indexerats med genretaggen komedi. Det förekom
även att ljudböcker, av någon anledning, blivit placerade i kategorin övrigt. Vad gäller
kategorin julmusik innehöll den kategorin totalt färre antal låtar än vad som fanns låtar
med Christmas i titeln i vardera av kategorierna pop och övrigt. Jag har viss förståelse
för om indexeraren tar mer hänsyn till vilken genre det faktiskt är på låten, men jag har
svårt att förstå varför musikinspelningar kategoriseras som övrigt när det finns lämpliga
genrer att placera dem i.
Utifrån sökningarna framkom att det kan innebära problem att beståndet är så stort och
att det i snitt per genre finns över 50 000 spår. Innebörden av detta är att
specificitetsprincipen inte alls beaktas och genresökningen är i regel att betrakta som
ineffektiv. Det är fullt möjligt att det finns användare som faktiskt skulle bläddra
igenom de 2 000 sidor med musikinspelningar som motsvarar en kategori med 50 000
spår, men dessa användare torde vara försvinnande få. I realiteten innebär detta snarare
att det endast är de kategorier med ett relativt lågt antal musikinspelningar som kan
betraktas vara användbara vad gäller effektiv genreåtervinning av Musikwebbs bestånd.
Vid en komparativ studie mellan allmusic, Amazon och MP3.com som Pachet och
Cazaly utförde visade det sig att allmusic hade 5 huvudgenrer och 531 undergenrer.
42
Amazon hade 18 huvudgenrer och 719 undergenrer. MP3.com hade i sin tur 16
huvudgenrer och 430 undergenrer. Av alla dessa genrer var endast 70 termer
gemensamma mellan de tre kontrollerade vokabulären. Inte ens termer som rock och
pop var gemensamma mellan de olika vokabulären.135 Med detta menar jag att
användarna av en musiktjänst inte kan förväntas inse vad olika termer innebär, och än
mindre så vid tillfällen då problemen beror på bristande exklusivitet. Användarna kan
svårligen veta vilka spår som har placerats i kategorin religiös musik och vilka som är
kategoriserade som kyrkomusik. Dessutom torde kategorierna gospel och spiritual
innehålla såväl religiös musik som körmusik och var återfinns musikinspelningar av
kyrkokörer? Vilken av kategorierna körmusik, kyrkomusik och religiös musik har
ansetts vara den korrekta för en specifik inspelning, och förstår användarna valet som
skett? Det är fullt möjligt att nyttja snarlika kategorier, men då bör det finnas tydliga
definitioner vad gäller vilka låtar som hör hemma var. Hos Musikwebb gör det inte det,
samtidigt som kategorin övrigt brukas flitigt, och då skapas det istället förvirring. Att
skapa förvirring, samt ha låga recall-värden, anser jag inte vara ett effektivt sätt att
hjälpa användarna att hitta den musik de efterfrågar.
Vad gäller auktoritetskontroll har jag under mina testsökningar noterat ett antal
problem. Bortsett från de problem som nämnts i samband med resultatredovisningen är
andra exempel på problem namnet Yaşar blir ibland till Ya_ar eller Yasar. Yildiz
förekommer som Y1ld1z och Yilmaz förekommer som Y1lmaz. De tre sistnämnda
exemplen innebär samma problem som jag redogjort för i resultatredovisningen, att
arabiska namn kan bli översatta på olika sätt. Ett än värre exempel på vad bristen av
auktoritetskontroll medför är alla namnformer CajsaStina Åkerström blivit tilldelad:
CAJSA
STINA ÅKERSTRÖM,
Cajsastina Aakerstroem,
CAJSASTINA
ÅKERSTRÖM, CajsaStina Åkerström, Cajsastina Åkerström. De tre sistnämnda
exemplen innebär tre olika ingångar till samma del av beståndet, men de två
förstnämnda skapar däremot ett eget bestånd. CajsaStina Åkerströms musikinspelningar
är alltså uppdelade i tre delar hos Musikwebb. För att en vokabulär ska kunna fungera
på ett fullgott sätt bör Musikwebbs utvecklare definitivt bruka auktoritetskontroll.
Problemet när det gäller att införa och utveckla funktioner i en tjänst är att det medför
en kostnad och ett företag brukar vanligtvis vilja gå med vinst. Om Musikwebb väljer
att implementera en funktion som kräver en investering på x antal kronor bör
avkastningen självfallet överstiga x kronor. Jag tror att en väl fungerande kontrollerad
vokabulär skulle ha en mycket god inverkan på återvinningseffektiviteten. Tyvärr är det
svårt att skapa en väl fungerande kontrollerad vokabulär. Harrold och Lea var missnöjda
med bristerna i dåvarande musiktesaurer och skapade 1991 Musaurus.136 Harrold och
Leas tesaurus blev i sin tur kallad för en stor besvikelse när den recenserades i
tidskriften The Indexer.137 Ett vanligt problem vid skapandet av en tesaurus är att termer
som borde finnas med i den kontrollerade vokabulären ej gör det. Likaså är att namnge
termer med namn som inte är det bästa namnet för termen.138 Dessa problem är dock av
mindre betydelse vid en jämförelse med de problem Microsoft noterade när MSN Music
Search Engine (MMSE) skapades. Totalt bestod deras bestånd då av några hundra tusen
låtar och för musikvetarna tog det 30 arbetsår att skapa vokabulären och klassificera
musiken. Arbetet utfördes förvisso med hög kvalitet och resultaten blev mycket goda,
men kostnaden ansågs vara för hög.139 Tar det 30 arbetsår att kategorisera några hundra
135
Pachet, François & Cazaly, Daniel 2000, s. 1240.
Harrold, Ann & Lea, Graham 1991, s. 16f.
137
Christie, Margaret L. 1991, s. 295f.
138
Hemmasi, Harriette 1994, s. 880.
139
Dannenberg, Roger et al. 2001, s. 54.
136
43
tusen låtar innebär det att det inte är möjligt att kunna förvänta sig att Musikwebb ska
kunna utföra god manuell kategorisering på sina miljoner låtar. Som kan ses i tabell 6.3
tillkom drygt 60 000 låtar under den vecka som förflöt mellan den nästa sista och sista
av mina testsökningar, vem skulle ha tid att indexera 60 000 låtar på en vecka och
samtidigt göra ett fullgott arbete? Problemen med att använda sig av manuell
klassifikation av stora musikdatabaser insåg även Aucouturier och Pachet. Manuell
klassifikation ansåg de vara bra i evalueringssyfte, men det är inte realistiskt att tro att
det fungerar i ett mycket omfattande bestånd.140 Det krävs alltså ett visst mått av
pragmatism när man indexerar en större samling. Då det inte är realistiskt att förvänta
sig att kunna använda manuell klassifikation för att göra en bra klassificering av hela
beståndet anser jag att Musikwebb borde göra precis som Spotify och licensiera
material från All Music Guide. Att Musikwebb skulle gynnas av att nyttja material från
All Music Guide ansåg även informanter i Cederstrand & Hjorths 141 och Lingmans142
uppsatser. Nackdelarna med att licensiera material från All Music Guide är att det skulle
innebära ökade kostnader för Musikwebb och det skulle även innebära att
klassificeringen inte längre skulle ske spår för spår utan istället artist för artist. I gengäld
skulle Musikwebb få tillgång till en stor databas med mängder av information som kan
komma till nytta för användarna. Det skulle även innebära att användarna får tillgång
till en bra similarity-funktion och kan bli rekommenderade liknande artister. Främst
skulle denna lösning innebära att det förhoppningsvis kan leda till att bristerna vad
gäller återvinningseffektivitet kraftigt minkar samt att ämneskategoriseringen blir
avsevärt bättre. Musikwebb skulle då även kunna få tillgång till en bra vokabulär som är
betydligt mer omfattande än deras egen och som dessutom innehåller bra förklaringar
till vad som omfattas av kategorin istället för att inte ha någon förklaring alls.
En billigare lösning som Musikwebb eventuellt kan förbättra sin återvinningseffektivitet
med är funktionen collaborative filtering, som används av bland annat Spotify. Denna
funktion innebär att användarna blir tipsade om musikinspelningar som systemet tror att
användaren kan anse vara relevanta.143 Den stora fördelen med funktionen är att den är
tämligen enkel att implementera i ett system.144 Den största nackdelen med
collaborative filtering är att det krävs mycket data för att skapa meningsfulla
analyser.145 Det gäller alltså att antalet användare är många, samt aktiva, så att datan
som skall analysera och tipsen till användarna kan bli användbara. Är däremot antalet
nedladdningar från Musikwebb få är det stor risk att rekommendationerna inte kommer
att vara särskilt relevanta. Ett problem gällande collaborative filtering på Musikwebb är
att det, genom forskningsresultat, visat sig att denna teknik gynnar musikinspelningar
som är populära av mångfalden. Det innebär att musikinspelningar som inte är alltför
populära får svårare att hävda sig och dessa riskerar att osynliggöras. 146 I
undersökningen TNS SIFO genomförde i slutet av november 2009 beräknades 2,9
miljoner svenskar (37 %) i åldersspannet 9-79 år ha tillgång till Spotify i hushållet.
Endast 8 % i denna åldersgrupp sade sig ha tillgång till någon annan musiktjänst i
hushållet.147 Hur stor andel av dessa som anser sig ha tillgång till Musikwebb är
omöjligt att veta, men det råder inget tvivel om att Spotify har de bättre
förutsättningarna att kunna ha nytta av collaborative filtering. Dels har man avsevärt fler
användare än vad Musikwebb har och dels har inte Spotify någon gräns på hur många
140
Aucouturier, Jean-Julien & Pachet, François 2003, s. 92.
Cederstrand, Klara & Hjorth, Tove 2008, s. 30.
142
Lingman, Emma 2007, s. 27.
143
Kleinberg, Jon & Sandler, Mark 2004, s. 569.
144
Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101.
145
Pachet, François, Westermann, Gert & Laigre, Damien 2001, s. 101.
146
Aucouturier, Jean-Julien & Pachet, François 2003, s. 91.
147
TNS SIFO 2010, s. 11.
141
44
låtar användarna kan lyssna på. Hos Musikwebb är det upp till de anslutna
folkbiblioteken hur många musikinspelningar användarna kan låna samtidigt eller inom
ett visst tidsrum.148 Just att det finns en sådan begränsning hos Musikwebb gör att risken
ökar för att en collaborative filtering-funktion skapar missvisande resultat.
Begreppet återvinningseffektivitet omfattar även hur lätt det är för användarna att kunna
ta del av den, för sökningen, relevanta informationen. Brister vad gäller
återvinningseffektiviteten handlar dels om indexeringsfel och liknande, men det handlar
även om funktioner som kan saknas helt hos en tjänst. En funktion jag anser skulle
kunna vara av godo för Musikwebbs användare för effektivare återvinning av
information vore att Musikwebb skulle börja använda sig av RSS-flöden. Ett RSS-flöde
är till för att distribuera information över Internet vilket innebär att tjänsten skulle
skicka ut information samt en länk tillbaka till den ursprungliga källan.149 För
användarna innebär detta att de enkelt kan få information om nytillkomna
musikinspelningar som tillgängliggörs hos Musikwebb. Om en användare inte vill ta del
av information om samtliga nytillkomna musikinspelningar finns en bra lösning för det,
och det är att låta sin RSS-läsare filtrera informationen. Den 6/11 2009 utkom gruppen
Kent med sitt nya album, Röd. I samband med att detta album tillgängliggjordes på
Musikwebb kunde ett RSS-flöde ha skickats ut. Användare A, som instruerat sin RSSläsare att meddela användaren när orden Kent och Röd förekommer i ett RSS-flöde från
Musikwebb kunde då ha fått ett meddelande och sedan laddat ner albumet från
Musikwebb. Förutom att det är praktiskt för användarna kan det även medföra att den
onödiga datatrafiken minskar hos Musikwebb då användare A inte behöver besöka
Musikwebb med jämna mellanrum och manuellt söka efter Kents album.
När jag, den 3/10 2009, sökte på Google, med sökorden Spotify och playlist, innebar
detta 480 000 sökträffar. De av dessa sökträffar som kan betraktas vara relevanta
innehåller möjligheter att ta del av andras låtlistor och att själv dela med sig av sina
egna låtlistor. Känner man sig ledsen och vill lyssna på bra ”deppmusik” finns det med
hög sannolikhet listor med låtar man inte hade en aning om att man skulle gilla och
listor med låtar man redan gillar, men inte har skapat en egen lista för. Ska man ha fest
om ett par timmar, och vet att man inte har tid att skapa en spellista med partymusik,
kan man använda en lista som en annan person har skapat. Denna funktion saknas helt
hos Musikwebb. Om en användare skulle försöka att hitta musik för en särskild dag,
eller ett särskilt tema, hos Musikwebb vore det endast möjligt om det finns ett album
med ett passande namn, exempelvis Absolute Party Hits, i beståndet. Skulle det finnas
funktioner där det går att skapa spellistor hos Musikwebb med olika teman skulle det
kunna lösa problemet vad gäller exempelvis kategorin julmusik. Indexerarna skulle
kunna välja den kategori musiken är främst hemmahörande i, men samtidigt lägga till
de juliga låtarna i en jultemalista.
Jag anser att Musikwebb är en högst bristfällig musiktjänst. Jag tycker att det är svårt att
nyttja sökfunktioner på ett adekvat sätt. Utifrån mitt urval noterade jag att
ämneskategoriseringen alltför ofta kunde betraktas vara högst tvivelaktig. Det tar lång
tid att bläddra i de olika genrerna och detta beror till stor del på att kategorierna är
ospecificerade. Det underlättar givetvis inte heller då flera kategorier inte är exklusiva
gentemot varandra så att man kan vara tvungen att bläddra i flera kategorier för att finna
passande musik. Det går heller inte att få tips om liknande musik eller artister. Syftet
med tjänsten anser jag vara gott, men utförandet är som sagt var högst bristfälligt.
148
149
Musikwebb Basepoint Media 2009b.
Fransson, Jonas 2007, s. 171.
45
8. Sammanfattning
Jag valde att i denna magisteruppsats evaluera webbtjänsten Musikwebb genom att
utföra testsökningar i systemet med utgångspunkt i följande optimeringskriterier:
specificitetsprincipen, precision, recall, exklusivitet och auktoritetskontroll.
Anledningen till detta var för att skriva en uppsats om Musikwebb som behandlar dess
sökfunktioner, indexeringsval och –möjligheter.
Följande var mitt valda syfte för magisteruppsatsen:
Syftet med denna studie är att undersöka den ämneskategorisering som har utförts på ett
urval av de ljudfiler Musikwebb tillhandahåller i sitt bestånd, samt Musikwebbs
kontrollerade vokabulär. Syftet är även att studera på vilket sätt ämneskategoriseringen
samt sökfunktionerna inverkar på återvinningseffektiviteten. Syftet är också att resonera
om vilka förändringar jag anser skulle gynna Musikwebb vad gäller
återvinningseffektivitet och ämneskategorisering.
Frågeställningarna jag valde för att konkretisera syftet var följande:
Om det finns några problem vad gäller ämneskategorisering i det urval jag gjort
för mina testsökningar, vilka är då dessa problem?
Om det utifrån mina testsökningar framkommer att det behövs förändringar av
Musikwebbs kontrollerade vokabulär, vilka är då dessa förändringar jag anser
behövs?
I den tidigare forskningen om Musikwebb har det, vid intervjuer med bibliotekarier och
användare av Musikwebb, framkommit att genreindelningen är svårförståelig och att
användargränssnittet inte är alltför bra. Ett önskemål om Musikwebb var att de skulle
bli mer inspirerade av allmusic, och även kunna ge rekommendationer om liknade
artister.
Vad gäller den tidigare forskningen om indexering av musik framkom att de
kontrollerade vokabulären om musik ofta innehåller brister i form av bland annat för
breda ämnesord, särskilt hos större samlingar. Det framkom också att skapandet av en
kontrollerad vokabulär samt kategorisering av några hundra tusen låtar tog 30 arbetsår.
Slutsatsen av detta var att det inte var praktiskt genomförbart att använda sig av manuell
klassifikation vid samlingar på flera miljoner låtar.
Den teoretiska bakgrunden för uppsatsen bestod av Charles Cutters
katalogiseringsregler från 1876, en genomgång av hur olika kontrollerade vokabulär
(ämnesordslista, klassifikationssystem och tesaurus) kan vara utformade samt vad man
bör tänka på vid skapandet av en dylik sådan. Utöver detta beskrevs även termerna
uttömmandegrad, collaborative filtering/similarity samt vilka fel som kan uppstå vid
indexering.
För att evaluera Musikwebb valde jag att utföra fyra olika testsökningar.
I den första sökningen granskade jag genren audiobooks och det framkom i denna
sökning att det fanns klara och tydliga brister vad gäller exklusivitet mellan klasserna i
mitt urval. Detta medförde att recall-värdet riskerar att avsevärt försämras i kategorierna
komedi och dokumentär samt att precisionsvärdet blev väldigt lågt i kategorin
audiobooks.
46
Den andra sökningen utfördes genom att göra en titelsökning på ordet Christmas för att
se om kategorin julmusik var den kategori i vilken de flesta av sökträffarna återfanns.
Det visade sig att det endast var 1-2 % av dessa spår som kunde återfinnas i den
kategorin julmusik. Bortsett från att inkluderande av en kategori som julmusik kan
innebära brister vad gäller exklusivitet mellan genrerna innebär det även att recallvärdet blir väldigt lågt om användarna förväntar sig att finna låtar med Christmas i titeln
i kategorin julmusik.
Den tredje sökningen bestod av statistik över det totala beståndet för att till viss del se
om klasserna kunde betraktas vara exklusiva gentemot varandra samt hur väl
Musikwebb beaktar specificitetsprincipen. Det visade sig här att Musikwebbs genrer
inte var särskilt specifika, och inte heller kunde genrerna betraktas vara särskilt
exklusiva då det kunde nämnas ett antal genrer som verkade vara snarlika varandra.
I den fjärde sökningen undersöktes vilken betydelse det har att Musikwebb inte
använder sig av auktoritetskontroll. Resultatet kunde delas upp i fyra delar där de som
innebar minst problem enbart skapade en extra ingång till beståndet och där de som
innebar störst problem med hög sannolikhet orsakar ett sänkt recall-värde för
användarna. Det fanns en viss risk för att det kunde uppstå problem vad gäller recallvärdet, men de flesta ingångar till beståndet var korrekta.
Vid besvarandet av frågeställningar angavs följande brister vad gäller
återvinningseffektiviteten: man tar inte hänsyn till specificitetsprincipen, det
förekommer indexeringsfel, det råder bristande exklusivitet mellan genrerna och det
saknas funktioner som skulle vara av godo för användarna.
För att förbättra återvinningseffektiviteten anser jag att det vore av godo att möjliggöra
skapandet av listor i Musikwebb på samma sätt som listor kan skapas av Spotifys
användare. Jag tror inte att det är möjligt att använda sig av manuell klassifikation för
ett sådant stort och dynamiskt bestånd som vad Musikwebb har så implementationen av
en collaborative filtering-funktion torde kunna vara av godo. Nackdelen med en dylik
funktion är att den kan medföra försämrad återvinningseffektivitet vad gäller musik som
inte är alltför populär bland låntagarna samt att den inte är lika användbar om antalet
nedladdningar från Musikwebb är tämligen få. En annan funktion jag tror skulle kunna
gynna återvinningseffektiviteten är att använda sig av RSS-flöden då användarna skulle
kunna filtrera fram önskad information och genast bli meddelade när en önskad
musikinspelning tillgängliggjordes på Musikwebb. Det jag främst anser skulle förbättra
Musikwebbs återvinningseffektivitet är dock att licensiera material från All Music
Guide och nyttja deras genreuppdelning.
Jag anser att det var svårt att nyttja sökfunktioner på ett fullgott sätt och att
ämneskategoriseringen alltför ofta är missvisande samt att kategorierna är
ospecificerade och ej exklusiva gentemot varandra. Det går inte att få tips om liknande
artister eller musik. Allt detta sammantaget gör att det kan vara svårt att hitta önskad
musik. Syftet med tjänsten anser jag förvisso vara gott, men utförandet är däremot högst
bristfälligt.
47
Källförteckning
allmusic (2009).
http://www.allmusic.com / About Us, sökord: Freddie Mercury, pop/rock [2009-10-30].
Aucouturier, Jean-Julien & Pachet, François (2003). Representing musical genre: A
state of the art. Journal of New Music Research, vol. 32, nr. 1, s. 83-93.
Axelsson, Karin (2001). Att beskriva musik. Borås: Högskolan i Borås,
Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i
Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och
informationsvetenskap, 2001:96).
Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier (1999). Modern information retrieval.
Harlow: Addison-Wesley.
Bally, Hans & Evasdotter, Astrid (2003). Organisation av pop- och rockmusiksamlingar
i
Sverige:
En
värderingsfråga?
Borås:
Högskolan
i
Borås,
Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i
Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och
informationsvetenskap, 2003:68).
Benito, Miguel (2001). Kunskapsorganisation: En introduktion till katalogisering,
klassifikation och indexering. 1. uppl. Borås: Taranco.
Cederstrand, Klara & Hjorth, Tove (2008). Musikwebb: En undersökning med fokus på
urval,
service
och
digitalisering.
Borås:
Högskolan
i
Borås,
Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i
Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och
informationsvetenskap, 2008:72).
Chowdhury, G. G. (1999). Introduction to modern information retrieval. London:
Library Association Publishing.
Christie, Margaret L. (1991). Book review of Musaurus: A music thesaurus: A new
approach to organising music information by Ann Harrold & Graham Lea. The Indexer,
vol. 17, nr. 4, s. 295-296.
Dannenberg, Roger et al. (2001). Panel: New directions in music information retrieval.
Ingår i Proceedings of the 2001 International Computer Music Conference,
International Computer Music Association, Havana, Cuba, September 17 – 22, 2001.
Andrew Schloss, Roger Dannenberg & Peter Driessen, eds. Av Roger Dannenberg,
Jonathan Foote, George Tzanetakis & Christopher Weare. San Francisio, Calif.:
Computer Music Association. S. 52-59.
Eriksson, Jesper & Freij, Karl-Oskar (2008). Musikklassifikation: En jämförande studie
av de tre generella klassifikationssystemen DDC, SAB och UDC. Borås: Högskolan i
Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Magisteruppsats i
Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och
informationsvetenskap, 2008:70).
48
Fransson, Jonas (2007). Effektivare informationssökning på webben: En handbok i
konsten att söka information. Ronneby: HEXA.
Harrold, Ann & Lea, Graham (1991). Musaurus: A music thesaurus: A new approach to
organising music information. London: Music Press.
Harter, Stephen P. (1986). Online information retrieval: Concepts, principles, and
techniques. San Diego, CA: Academic Press.
Harvey, Ross & Hider, Philip (2004). Organising knowledge in a global society:
Principles and practice in libraries and information centres. Wagga Wagga, N.S.W.:
Centre for Information Studies, Charles Sturt University.
Hedden, Heather (2008). Controlled vocabularies, thesauri, and taxonomies. The
Indexer, vol. 26, nr 1, s. 33-34.
Hellsten, Unn & Rosfelt, Margareta (1999). Ämnesordsindexering: En handledning. 2.
uppl. Stockholm: Avd. för nationell samordning och utveckling, Kungl. bibl.
(BIBSAM).
Hemmasi, Harriette (1994). The music thesaurus: Function and foundations. Notes, vol.
50, nr 3, s. 875-882.
Huang, Zan, Chung, Wingyan & Chen, Hsinchun (2004). A graph model for ecommerce recommender systems. Journal of the American society for information
science and technology. vol. 55, nr. 3, s. 259-274.
Kleinberg, Jon & Sandler, Mark (2004). Using mixture models for collaborative
filtering. Ingår i STOC´04: Proceedings of the thirty-sixth annual ACM symposium on
theory of computing, Chicago, Illinois, USA, June 13-15, 2004. László Babai, ed. New
York: The Association for Computing Machinery. S. 569-578.
Knutsson, Niklas (2007). Musikwebben: Ett alternativ till illegal fildelning? Borås:
Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap.
(Kandidatuppsats i Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och informationsvetenskap, 2007:2).
Lancaster, F. W. (1986). Vocabulary control for information retrieval. 2. ed. Arlington,
Va.: IRP.
Lancaster, F. W. (2003). Indexing and abstracting in theory and practice. 3. ed.
Champaign, Ill.: University of Illinois.
Lingman, Emma (2007). Musikkonsumtion på Internet: En användarstudie av
nedladdningsvanor relaterat till musiktjänster på biblioteket. Umeå: Umeå Universitet.
(Magisteruppsats i Biblioteks- och informationsvetenskap, 2007:332).
McKnight, Mark, Griscom, Richard & Young, J. Bradford (1989). Improving access to
music: A report of the MLA Music Thesaurus Project Working Group. Notes, vol. 45,
nr. 4, s. 714-721.
Mild, Ulrika (2004). Musik på Internet: Framtiden för bibliotekens musikavdelningar?
Borås: Högskolan i Borås, Bibliotekshögskolan/Biblioteks- och informationsvetenskap.
49
(Magisteruppsats i Biblioteks- och informationsvetenskap
högskolan/Biblioteks- och informationsvetenskap, 2004:120).
vid
Biblioteks-
Morville, Peter & Rosenfeld, Louis (2007). Information architecture for the world wide
web. 3. ed. Sebastopol, CA: O’Reilly.
Musikwebb, Basepoint Media (2009a). Musikwebb – ladda hem musik från ditt
bibliotek.
http://musikwebben.btj.se/ [2009-10-06].
Musikwebb, Basepoint Media (2009b). Välkommen till
http://musikwebb.shop2download.com / Hjälp [2009-10-06].
nya
Musikwebb.se.
Myers, Jane A. (1995). Music: Special characteristics for indexing and cataloguing. The
indexer, vol. 19, nr. 4, s. 269-274.
Norlund, Åsa (2005). Musik och indexering i folkbiblioteken: En analys av ämnesord
och indexering i folkbibliotekens onlinekataloger. Borås: Högskolan i Borås,
Bibliotekshögskolan/Biblioteks- och informationsvetenskap. (Kandidatuppsats i
Biblioteks- och informationsvetenskap vid Bibliotekshögskolan/Biblioteks- och
informationsvetenskap, 2005:3).
Pachet, François & Cazaly, Daniel (2000). A taxonomy of musical genres. Ingår i
Proceedings of Content-Based Multimedia Information Access conference, RIAO 2000,
April 12-14, 2000, Paris, France, vol. 2. Joseph-Jean Mariani & Donna Harman, eds.
Paris: C.I.D.. S. 1238-1245.
Pachet, François, Westermann, Gert & Laigre, Damien (2001). Musical data mining for
electronic music distribution. Ingår i Proceedings: First international conference on
web delivering of music (Wedelmusic’01), Florence, Italy, 23-24 November 2001. Paolo
Nesi, Pierfrancesco Bellini & Christoph Busch, eds. Los Alamitos, Calif.: IEEE
Computer Society Press. S. 101-106.
Price, Harry (1985). Subject access to jazz and popular music materials on Library of
Congress catalog records. Fontes Artis Musicae, vol. 32, no. 1, s. 42-53.
Ranganathan, S.R. ([1967] 1989). Prolegomena to library classification. Vol. 1. 3. ed.
Bangalore: Sarada Ranganathan Endowment for Library Science.
Rowley, Jennifer & Hartley, Richard (2008). Organizing knowledge: An introduction to
managing access to information. 4. ed. Aldershot: Ashgate.
Sehr, Andres, Spotify (2009). One year ago today ...
http://www.spotify.com/blog/archives/2009/10/07/one-year-ago-today/ [2009-10-30].
Spotify (2009).
http://www.spotify.com / Help / About Spotify, / Work with us / Labels and artists, /
About / What is Spotify? [2009-10-06].
TNS SIFO [Haraldsson, Ulf] (2010). Spotify och andra musiktjänster på internet.
http://www.tns-sifo.se/nyheter-och-press/2,9-miljoner-har-spotify-i-hushaallet [201003-23].
50
Vellucci, Sherry L. (2001). Music metadata and authority control in an international
context. Notes, vol. 57, nr 3, s. 541-554.
Windhager, Eszter P. et al. (2006). Iterative algorithms for collaborative filtering with
mixture models. Av Eszter P. Windhager, Libertad Tansini, Istvan Biro & Devdatt
Dubhashi.
http://www.cs.chalmers.se/%7Elibertad/Notanonym-2NoConfData.ps [2009-11-01].
Ztorm (2010). Ztorm’s digital distribution platform features loans and rentals of PC
games.
http://www.ztorm.com/news/ztorms-digital-distribution-platform-features-loans-andrentals-of-pc-games/ [2010-03-25].
51
Bilaga 1 – Figur- och tabellförteckning
Figur 3.1. Det kvantitativa resultatet vid en sökning indelat i fyra fält utifrån om de är
relevanta, irrelevanta, återvunna eller ej återvunna.
Tabell 6.1. En lista över de album som återfanns under kategorin audiobooks.
Tabell 6.2. En lista över antalet spår inom respektive genre som innehöll ordet
Christmas i sin spår- eller albumtitel. Procenttalet anger vilket recall-värde som kunde
uppmätas inom respektive genre.
Tabell 6.3. En lista över antalet spår inom respektive genre samt det totala antalet spår.
Tabell 6.4. En lista över de namn som förekom fler än en gång inom urvalet för min
studie.
52