LinköpingsUniversitet
MusikochMaskininlärning
Automatiskgenreklassificeringavmusik
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
2015-01-09
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
Innehåll
1
Inledning.......................................................................................................................................................1
2
MusicInformationRetrieval................................................................................................................2
3
Avgränsningar............................................................................................................................................2
4
Extraheringavmusikaliskasärdrag.................................................................................................3
4.1
5
Klangfärgochtextur......................................................................................................................3
4.1.1
Spectralcentroid....................................................................................................................3
4.1.2
Roll-off........................................................................................................................................3
4.1.3
Flux..............................................................................................................................................3
4.1.4
MFCC...........................................................................................................................................4
4.2
Tonhöjdochharmoni....................................................................................................................5
4.3
RytmochBPM...................................................................................................................................6
Klustringochmodellering.....................................................................................................................7
5.1
GaussianMixtureModel...............................................................................................................7
5.2
Expectation-Maximization..........................................................................................................8
6
Träningochklassificering.....................................................................................................................9
7
Diskussion....................................................................................................................................................9
8
Referenser.................................................................................................................................................10
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
1 Inledning
Dendigitalamusikdjungelnblirmersvårnavigeradförvarjedag.Vissatjänstertillämpar
manuellgenrekategoriseringavmusikförattskapaordningochreda,andra
skräddarsyrrekommendationerbaseradepålyssnarenspreferenser.Dessametoderär
docktidsödandeochdyra.Ettförhållandevisnyttforskningsfältkallatmusic
informationretrieval(hädanefterMIR)undersökerblandannatmetodersomkan
användasförattidentifieraochextraherainformationurmusik.Informationenkan
sedananvändasförattautomatisktkategoriseramusikenpåetteffektivtochpålitligt
sätt.Idennarapportredogörjagförettantalmetodersomkananvändasföratt
konstrueraettsådantsystem.
1
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
2 MusicInformationRetrieval
SomforskningsfältetableradesMIRislutetav90-taletnärforskarefrånenrad
disciplinergjordegemensamsakattlösadeproblemsomuppstodnärvärldensenorma
digitalamusikbibliotekskullegörastillgängligtpåetteffektivtochanvändbartsätt
(Wiering,2006).
Traditionelltkatalogiserasmusikmed”taggar”iformavtextvarssyfteärattså
detaljeratsommöjligtbeskrivamusikstycketsegenskaper.Grundläggandeinformation
kanvaraexempelvisartistellerkompositör,genreellertempo.Merspecifikinformation
kanvaravilkainstrumentsomspelas,sångarenskönochnamnellermusikstyckets
tonart(Orio,2006).Dennametadatakananvändasförattblandannatge
rekommendationerellerförslagpånymusikåtanvändarenavenmusiktjänst(Grosche,
Müller,&Serrà,2012).Enuppenbarnackdelmedmetadataärattdenmåsteläggastill
manuelltvilketdelsärtidsödandeochdyrtmenävenopålitligt.Vissforskningförsöker
förbättradessametoder,menmajoritetenavforskningsfältetfokuserarpå
innehållsdata.
Innehållsdataärinformationsomextraherasdirektfrånenmusikfil.Musikstycket
analyserasförattidentifieraenradskildaegenskaper,exempelvismelodi,rytmeller
klang.Automatiskgenreklassificeringapplicerarmetoderfråndettaområde.
3 Avgränsningar
MusicInformationRetrievalärettstortforskningsfält.Detärintemöjligtattgeen
detaljeradbeskrivningavMIRidesshelhetinomramarnafördettaprojekt.Jaghar
därförvaltattfokuserapåhurmetoderinomMIRkananvändasförattautomatiskt
klassificeramusikeftergenre.Äveninomdettasmalatillämpningsområdefinnsdeten
enormmängdteorier,algoritmerochstrategier.Avpraktiskaochtidsmässigaskälhar
jagvaltattbeskrivaendastenavdessametoder.Utöverdettaredogörjagförettantal
exempelpåmusikaliskasärdragsomkananvändasförattsärskiljamusikgenrer.
2
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
4 Extraheringavmusikaliskasärdrag
EttpopulärtverktygförattutvinnainformationurmusikfilerärMARSYAS(Nascimento,
Kaestner,&Koerich,2006).Verktygetimplementerarblandannatresultatenav
forskningutförtavTzanetakis,Essl&Cook(2001).Programmetanalyserarett
musikstyckeochidentifierarsammanlagtomkring30särdragfördelademellantre
kategorier;klangfärgochtextur,tonhöjdsamtrytm.
4.1 Klangfärgochtextur
Klangfärgbeskrivssomdeljudegenskapersomfårtvåolikainstrumentattlåtaolika
trotsattljudendeproducerarharsammatonhöjdochamplitud(Scaringella,Zoia,&
Mlynek,2006).
4.1.1 Spectralcentroid
Ensignalsspektrumcentroidbeskrivssomdenfrekvensdärsignalensgenomsnittliga
signalstyrkafinns.Manbetraktarspektrumetsomenfördelningdärfrekvensernaär
värden.Dennormaliseradesignalstyrkanrepresenterarsannolikhetenattvarjefrekvens
observeras(Peeters,2004).Enljudsignalvarscentroidfinnsidehögrefrekvensbanden
upplevssomljusare(Lerch,2012).
4.1.2 Roll-off
Mänskligttalärriktpåenergiidelägrefrekvensbanden.Genomattfiltrerabortde
högstabandenkanmanmedhögresäkerhetsepareramänskligttalfrånbakgrundsbrus.
Roll-offärdenfrekvensundervilken95%avljudsignalensenergifinns.Desista5%är
medstörstasannolikhetbrusochkandärförelimineras(Peeters,2004).
4.1.3 Flux
Fluktueringarisignalstyrkakananvändasförattanalyseraklangfärg.Fluxmäterhur
snabbadessafluktueringarär.Metodenanvändsfrämstförattupptäckanärettljud
3
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
börjar,menkanävenanvändasförattupptäckaövergångarmellanljuddådenärväldigt
känsligförförändringarisignalstyrkaövertid(Giannoulis,Massberg,&Reiss,2013).
4.1.4 MFCC
Mel-FrequencyCepstralCoefficients(MFCCs)ärsärdragsvektorerutvunnaurett
signalspektrum.MFCCsanvändsfrämstinomröstigenkänningmenimplementerasäven
isystemsomklassificerarmusikeftergenrer(Logan,2000).Processenatttaframdessa
särdragsvektoreräruppdeladiflerasteg.
•
Steg1–Delauppsignalenismåtidsfönsteromca20ms.
•
Steg2–KonverteravarjetidsfönstermeddiskretFouriertransform(DFT).
Metodenkonverterarljudsignalenfråntidsdomänentillfrekvensdomänen,som
ärlättareattbehandla.Figur1illustrerarensågtandsformadsignali
tidsdomänen(över)ochfrekvensdomänen(under).
Figur1.Sågtandadsignal.
•
Steg3–Beräknalogaritmenavspektrumetsamplitud.
•
Steg4–Jämnautspektrumetgenomattgrupperakomponenternaikluster
separeradeenligtMel-skalan.Forskningvisarattmänniskaninteuppfattar
skillnaderitonhöjdlinjärt,mensnararelogaritmiskt.Mel-skalanmappar
frekvensermotupplevdatonhöjder.Under1kHzärmappningenlinjärmen
övergårsedanienlogaritmiskfunktion.Mel-skalanvisasiFigur2.
4
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
Figur2.Mel-skalan.
•
Steg5–AnvändDiscreteCosineTransform(DCT)förattavkorrelera
komponentklustren.Dettagörattantaletklusterkanreducerasutanattviktig
dataförloras.
Idennaprocesskanetttiotalspektralasärdragurskiljasurvarjeenskilttidsfönster.En
MFCCärsåledesenvektorbeståendeavdessasärdragochdata(Logan,2000).
4.2 Tonhöjdochharmoni
Detärförhållandevisenkeltattutvinnainformationomtonhöjdochharmoniurett
monofonisktmusikstycke,därdetendastfinnsenspeladmelodi.Attsepareraolika
melodieriettpolyfonisktstyckeärbetydligtsvårareochbetraktasfortfarandesomett
olöstproblem(Tzanetakis,Ermolinskyi,&Cook,2003).Vissaövergripandetemankan
dockidentifierasgenomattkonstrueratonhöjdshistogram.Frånettsådanhistogram
kanmanuppskattafördelningenavmusikaliskatonhöjderiettmusikstycke.
Etttonhöjdshistogrambestårav128heltalsvariablerindexeradeeftermusikaliska
notersomexempelvisA#,CellerFb.Enalgoritmidentifierarochräknarförekomstenav
dessafrekvenserimusikstycketmedhjälpavvariablerna.Ettexempelpåett
tonhöjdshistogramvisasiFigur3.
5
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
Figur3.Tonhöjdshistogramsomvisartvåexempelpåjazz(vänster)ochIrländskfolkmusik(höger).
HistogrammeniFigur3illustrerarhurtvåolikagenrertydligtskiljersigfrån
varandra.Idénärattgenrersomtenderarattvaramertonaltkomplexauppvisaren
bredaretonfördelningmedfärreochlägretopparängenrersomärmerstatiska.
PopmusikochRockärexempelpågenrersomärmindredynamiskaisinatongångarän
Jazzochklassiskmusik.Histogrammetavenpoplåtbördärförvarasmalareisin
fördelningochvissatonerbörvaramerrepresenteradeänandra(Tzanetakisetal.,
2003).
4.3 RytmochBPM
Rytmochtempoärnågotsomdeflestamänniskorupptäckerutanproblem.Fördatorer
ärdetintelikaenkelt(Orio,2006).Enavdemestgrundläggandekomponenternaiett
musikalisktstyckeärdesstempo,ellerBPMfrånengelskansbeatsperminute.
6
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
BPMkanuppskattasgenomattanvändaalgoritmerbaseradepåDiscreteWavelet
Transform(DWT).Metodenfungerarsomettfiltersomiterativtgrov-ochfinfiltrerar
signalenförattfinnamönsterihurfrekvensernafluktuerariamplitud.Denletarefterde
mestframträdandeförändringarnaförattuppskattastycketstempo(GTzanetakis,Essl,
&Cook,2001).
5 Klustringochmodellering
ForskninginomMIRanvänderenradolikaalgoritmerochstrategierförattbehandla
särdragsvektorerfrånsignaldata.ExempelpådessaärHiddenMarkovModels(HMM),
SupportVectorMachines(SVM)ochK-NearestNeighbor(KNN)(Scaringellaetal.,
2006).JagvaldeattbortsefråndessaochintresserademigiställetförGaussianMixture
Models.
5.1 GaussianMixtureModel
Detärinteorimligtattantaattvissasärdagsvektorerkanstämmaöverensmedflerän
engenre.Ettsättattlösadetpåärattrepresenteraklusteravdata,genrer,som
GaussiskafunktionerienGaussianMixtureModel(GMM).EnGMMärentäthetsfunktion
somrepresenterassomdenviktadesummanavettgivetantalGaussiskafunktioner.
Gaussiskafunktioner,ellernormalfördelningar,kanintemodellerakomplexa
fördelningar.Iställeträknasettantalfunktionersammanienmeravanceradmodell.
Frånmodellenkanmansedan,medenvisssäkerhet,avgöravilketklusterenviss
datapunkttillhör(Reynolds,2008).Denviktadesummanberäknasmedekvationen
därxärenD-dimensionelldatavektorochwi,i=1,...,M.ärvikternaavdeinkluderade
Gaussiskafunktionerna.Vikternauppfyllerkravetatt
DeGaussiskafunktionernabeskrivsmedformeln
7
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
därμiärmedelvärdethosenvektorochΣiärenkovariansmatris.Genomattskapa
parametraravsamtligamodellkomponentersvektormedelvärden,kovariansmatriser
ochvikterfårmanenkomplettGMM,sombeskrivenenligtnotationen
Enförenkladbeskrivningärattdeindividuellavektorkomponenternaräknasihop
förattmodelleraettövergripandemönster(Reynolds,2008).Ettillustrerandeexempel
visasiFigur4.
Figur4.Trenormalfördelningar(blå)räknassammantillenGMM(röd).
5.2 Expectation-Maximization
Förattprobabilistiskamodellerskavaratillnågonnyttamåsteallavärdenochvariabler
varakända.Tyvärrärdetinteovanligtattnågonavdessaparametrarsaknas,att
modellenbyggerpåofullständigdata.Enmetodförattlösadettaärattanvända
Expectation-Maximization,förkortatEM(Do&Batzoglou,2008).Algoritmenfungerar
someniterativtvåstegsprocess.
IE-steget,frånExpectation,ersättsokändaparametervärdenmedgissningarsom
ärrimligaenligtdenursprungligamodellen.Fråndessagenererassannolikheterförde
observeradeutfallen.
IM-steget,frånMaximization,beräknasnyaparametervärdenutifrånde
estimeradesannolikheternasomgenereratsiE-steget.Dessanyavärdenanvändsföratt
genereraenbättremodellsomanvändsinästaE-steg.Dennaiterativaprocessfortsätter
tilldessattvärdenakonvergerarochingastörreförbättringarsker(Reynolds,2008).
8
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
6 Träningochklassificering
Medhjälpavverktygensomhittillsbeskrivitsärdetmöjligtattkonstrueraettprogram
sompåegenhandavgörvilkengenreettmusikstycketillhör.Programmetlärsiggenom
övervakadmaskininlärning.Enträningsmängdskapasgenomattettstortantal
musikstyckenfrånenradgenrerfårsinamusikaliskasärdragextraherade.Musiken
taggasmanuelltpåförhandochanvändssomfacitiinlärningsprocessen(Orio,2006).
Utmaningenkommernärnyamusikstyckenskaklassificeras.Musikens
särdragsvektorerskickasinienGMM-klassificeraresomjämförvektorernamotde
intränadefacitparametrarna.Utifråndenresulterandesannolikhetsfördelningenväljer
klassificerarendengenresommusikstycketmedstörstamöjligasannolikhettillhör.
7 Diskussion
AutomatiskgenreklassificeringärendastenlitendelavdetväxandeMIR-fältet.Under
projektetsgångharjagvidettflertaltillfällettvingatsläggaintressantaalgoritmeroch
andraidéeråtsidandådeintevaritrelevantaförprojektetssyfte.Teknikerför
exempelvisröstigenkänningärhögstrelevantidagenstekniksamhälleochförekommer
iapplikationersomexempelvisSiriellerCortana.Relativtnyaforskningsframsteginom
MIRkanrevolutionerahurvikonsumerarmusik.Enframtidasökfunktionär
möjlighetenattanvändaenmusikpassagesomsökinput,ochirealtidfåförslagpå
artister,genrerellerenskildalåtarsomliknardetkortaexempletsomangavs.
Sammanfattningsvisupplevdejagdennaprojektfördjupningsombåde
skrämmandeochväldigtintressant.Deenormalitteräraresursernakändesverkligen
sombergattbestigaförattbildanågotslagsförståelseförprocessen.Ettgenuint
musikintresseunderlättadesäkertattmotiveramigattsättamigindethela.
9
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
8 Referenser
Do,C.B.,&Batzoglou,S.(2008).Whatistheexpectationmaximizationalgorithm?
NatureBiotechnology,26(8),897–899.
Giannoulis,D.,Massberg,M.,&Reiss,J.D.(2013).Parameterautomationinadynamic
rangecompressor.AES:JournaloftheAudioEngineeringSociety,61(10),716–726.
Grosche,P.,Müller,M.,&Serrà,J.(2012).AudioContent-BasedMusicRetrieval.
MultimodalMusicProcessing,3,157–174.
Lerch,A.(2012).AnIntroductiontoAudioContentAnalysis:ApplicationsinSignal
ProcessingandMusicInformatics.Wiley-IEEEPress.
Logan,B.(2000).MelFrequencyCepstralCoefficientsforMusicModeling.International
SymposiumonMusicInformationRetrieval,28,11p.
Nascimento,C.,Kaestner,C.A.A.,&Koerich,A.L.(2006).AutomaticGenreClassification
ofLatinMusicUsingEnsembleofClassifiers.IEEEInternationalConferenceon
SystemsManandCybernetics,1687–1692.
Orio,N.(2006).MusicRetrieval:ATutorialandReview.FoundationsandTrends®in
InformationRetrieval,1(1),1–96.
Peeters,G.(2004).Alargesetofaudiofeaturesforsounddescription(similarityand
classification)intheCUIDADOproject.CUIDADOISTProjectReport,54(0),1–25.
Reynolds,D.a.(2008).GaussianMixtureModels.EncyclopediaofBiometricRecognition,
31(2),1047–64.
Scaringella,N.,Zoia,G.,&Mlynek,D.(2006).Automaticgenreclassificationofmusic
content.IEEESignalProcessingMagazine,23(2),133–141.
Tzanetakis,G.,Ermolinskyi,A.,&Cook,P.(2003).Pitchhistogramsinaudioand
symbolicmusicinformationretrieval.JournalofNewMusicResearch,32(2),143–
152.
Tzanetakis,G.,Essl,G.,&Cook,P.(2001).Automaticmusicalgenreclassificationofaudio
signals.ProceedingsoftheSecondInternationalSymposiumonMusicInformation
Retrieval,6totalpages.
Wiering,F.(2006).CanHumansBenefitfromMusicInformationRetrieval?Proceeding
10
729G43ArtificiellIntelligens
Projektarbete
OscarBjurling,oscbj981
AMR’06Proceedingsofthe4thInternationalConferenceonAdaptiveMultimedia
Retrieval:User,Context,andFeedback,82–94.
11