LinköpingsUniversitet MusikochMaskininlärning Automatiskgenreklassificeringavmusik 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 2015-01-09 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 Innehåll 1 Inledning.......................................................................................................................................................1 2 MusicInformationRetrieval................................................................................................................2 3 Avgränsningar............................................................................................................................................2 4 Extraheringavmusikaliskasärdrag.................................................................................................3 4.1 5 Klangfärgochtextur......................................................................................................................3 4.1.1 Spectralcentroid....................................................................................................................3 4.1.2 Roll-off........................................................................................................................................3 4.1.3 Flux..............................................................................................................................................3 4.1.4 MFCC...........................................................................................................................................4 4.2 Tonhöjdochharmoni....................................................................................................................5 4.3 RytmochBPM...................................................................................................................................6 Klustringochmodellering.....................................................................................................................7 5.1 GaussianMixtureModel...............................................................................................................7 5.2 Expectation-Maximization..........................................................................................................8 6 Träningochklassificering.....................................................................................................................9 7 Diskussion....................................................................................................................................................9 8 Referenser.................................................................................................................................................10 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 1 Inledning Dendigitalamusikdjungelnblirmersvårnavigeradförvarjedag.Vissatjänstertillämpar manuellgenrekategoriseringavmusikförattskapaordningochreda,andra skräddarsyrrekommendationerbaseradepålyssnarenspreferenser.Dessametoderär docktidsödandeochdyra.Ettförhållandevisnyttforskningsfältkallatmusic informationretrieval(hädanefterMIR)undersökerblandannatmetodersomkan användasförattidentifieraochextraherainformationurmusik.Informationenkan sedananvändasförattautomatisktkategoriseramusikenpåetteffektivtochpålitligt sätt.Idennarapportredogörjagförettantalmetodersomkananvändasföratt konstrueraettsådantsystem. 1 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 2 MusicInformationRetrieval SomforskningsfältetableradesMIRislutetav90-taletnärforskarefrånenrad disciplinergjordegemensamsakattlösadeproblemsomuppstodnärvärldensenorma digitalamusikbibliotekskullegörastillgängligtpåetteffektivtochanvändbartsätt (Wiering,2006). Traditionelltkatalogiserasmusikmed”taggar”iformavtextvarssyfteärattså detaljeratsommöjligtbeskrivamusikstycketsegenskaper.Grundläggandeinformation kanvaraexempelvisartistellerkompositör,genreellertempo.Merspecifikinformation kanvaravilkainstrumentsomspelas,sångarenskönochnamnellermusikstyckets tonart(Orio,2006).Dennametadatakananvändasförattblandannatge rekommendationerellerförslagpånymusikåtanvändarenavenmusiktjänst(Grosche, Müller,&Serrà,2012).Enuppenbarnackdelmedmetadataärattdenmåsteläggastill manuelltvilketdelsärtidsödandeochdyrtmenävenopålitligt.Vissforskningförsöker förbättradessametoder,menmajoritetenavforskningsfältetfokuserarpå innehållsdata. Innehållsdataärinformationsomextraherasdirektfrånenmusikfil.Musikstycket analyserasförattidentifieraenradskildaegenskaper,exempelvismelodi,rytmeller klang.Automatiskgenreklassificeringapplicerarmetoderfråndettaområde. 3 Avgränsningar MusicInformationRetrievalärettstortforskningsfält.Detärintemöjligtattgeen detaljeradbeskrivningavMIRidesshelhetinomramarnafördettaprojekt.Jaghar därförvaltattfokuserapåhurmetoderinomMIRkananvändasförattautomatiskt klassificeramusikeftergenre.Äveninomdettasmalatillämpningsområdefinnsdeten enormmängdteorier,algoritmerochstrategier.Avpraktiskaochtidsmässigaskälhar jagvaltattbeskrivaendastenavdessametoder.Utöverdettaredogörjagförettantal exempelpåmusikaliskasärdragsomkananvändasförattsärskiljamusikgenrer. 2 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 4 Extraheringavmusikaliskasärdrag EttpopulärtverktygförattutvinnainformationurmusikfilerärMARSYAS(Nascimento, Kaestner,&Koerich,2006).Verktygetimplementerarblandannatresultatenav forskningutförtavTzanetakis,Essl&Cook(2001).Programmetanalyserarett musikstyckeochidentifierarsammanlagtomkring30särdragfördelademellantre kategorier;klangfärgochtextur,tonhöjdsamtrytm. 4.1 Klangfärgochtextur Klangfärgbeskrivssomdeljudegenskapersomfårtvåolikainstrumentattlåtaolika trotsattljudendeproducerarharsammatonhöjdochamplitud(Scaringella,Zoia,& Mlynek,2006). 4.1.1 Spectralcentroid Ensignalsspektrumcentroidbeskrivssomdenfrekvensdärsignalensgenomsnittliga signalstyrkafinns.Manbetraktarspektrumetsomenfördelningdärfrekvensernaär värden.Dennormaliseradesignalstyrkanrepresenterarsannolikhetenattvarjefrekvens observeras(Peeters,2004).Enljudsignalvarscentroidfinnsidehögrefrekvensbanden upplevssomljusare(Lerch,2012). 4.1.2 Roll-off Mänskligttalärriktpåenergiidelägrefrekvensbanden.Genomattfiltrerabortde högstabandenkanmanmedhögresäkerhetsepareramänskligttalfrånbakgrundsbrus. Roll-offärdenfrekvensundervilken95%avljudsignalensenergifinns.Desista5%är medstörstasannolikhetbrusochkandärförelimineras(Peeters,2004). 4.1.3 Flux Fluktueringarisignalstyrkakananvändasförattanalyseraklangfärg.Fluxmäterhur snabbadessafluktueringarär.Metodenanvändsfrämstförattupptäckanärettljud 3 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 börjar,menkanävenanvändasförattupptäckaövergångarmellanljuddådenärväldigt känsligförförändringarisignalstyrkaövertid(Giannoulis,Massberg,&Reiss,2013). 4.1.4 MFCC Mel-FrequencyCepstralCoefficients(MFCCs)ärsärdragsvektorerutvunnaurett signalspektrum.MFCCsanvändsfrämstinomröstigenkänningmenimplementerasäven isystemsomklassificerarmusikeftergenrer(Logan,2000).Processenatttaframdessa särdragsvektoreräruppdeladiflerasteg. • Steg1–Delauppsignalenismåtidsfönsteromca20ms. • Steg2–KonverteravarjetidsfönstermeddiskretFouriertransform(DFT). Metodenkonverterarljudsignalenfråntidsdomänentillfrekvensdomänen,som ärlättareattbehandla.Figur1illustrerarensågtandsformadsignali tidsdomänen(över)ochfrekvensdomänen(under). Figur1.Sågtandadsignal. • Steg3–Beräknalogaritmenavspektrumetsamplitud. • Steg4–Jämnautspektrumetgenomattgrupperakomponenternaikluster separeradeenligtMel-skalan.Forskningvisarattmänniskaninteuppfattar skillnaderitonhöjdlinjärt,mensnararelogaritmiskt.Mel-skalanmappar frekvensermotupplevdatonhöjder.Under1kHzärmappningenlinjärmen övergårsedanienlogaritmiskfunktion.Mel-skalanvisasiFigur2. 4 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 Figur2.Mel-skalan. • Steg5–AnvändDiscreteCosineTransform(DCT)förattavkorrelera komponentklustren.Dettagörattantaletklusterkanreducerasutanattviktig dataförloras. Idennaprocesskanetttiotalspektralasärdragurskiljasurvarjeenskilttidsfönster.En MFCCärsåledesenvektorbeståendeavdessasärdragochdata(Logan,2000). 4.2 Tonhöjdochharmoni Detärförhållandevisenkeltattutvinnainformationomtonhöjdochharmoniurett monofonisktmusikstycke,därdetendastfinnsenspeladmelodi.Attsepareraolika melodieriettpolyfonisktstyckeärbetydligtsvårareochbetraktasfortfarandesomett olöstproblem(Tzanetakis,Ermolinskyi,&Cook,2003).Vissaövergripandetemankan dockidentifierasgenomattkonstrueratonhöjdshistogram.Frånettsådanhistogram kanmanuppskattafördelningenavmusikaliskatonhöjderiettmusikstycke. Etttonhöjdshistogrambestårav128heltalsvariablerindexeradeeftermusikaliska notersomexempelvisA#,CellerFb.Enalgoritmidentifierarochräknarförekomstenav dessafrekvenserimusikstycketmedhjälpavvariablerna.Ettexempelpåett tonhöjdshistogramvisasiFigur3. 5 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 Figur3.Tonhöjdshistogramsomvisartvåexempelpåjazz(vänster)ochIrländskfolkmusik(höger). HistogrammeniFigur3illustrerarhurtvåolikagenrertydligtskiljersigfrån varandra.Idénärattgenrersomtenderarattvaramertonaltkomplexauppvisaren bredaretonfördelningmedfärreochlägretopparängenrersomärmerstatiska. PopmusikochRockärexempelpågenrersomärmindredynamiskaisinatongångarän Jazzochklassiskmusik.Histogrammetavenpoplåtbördärförvarasmalareisin fördelningochvissatonerbörvaramerrepresenteradeänandra(Tzanetakisetal., 2003). 4.3 RytmochBPM Rytmochtempoärnågotsomdeflestamänniskorupptäckerutanproblem.Fördatorer ärdetintelikaenkelt(Orio,2006).Enavdemestgrundläggandekomponenternaiett musikalisktstyckeärdesstempo,ellerBPMfrånengelskansbeatsperminute. 6 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 BPMkanuppskattasgenomattanvändaalgoritmerbaseradepåDiscreteWavelet Transform(DWT).Metodenfungerarsomettfiltersomiterativtgrov-ochfinfiltrerar signalenförattfinnamönsterihurfrekvensernafluktuerariamplitud.Denletarefterde mestframträdandeförändringarnaförattuppskattastycketstempo(GTzanetakis,Essl, &Cook,2001). 5 Klustringochmodellering ForskninginomMIRanvänderenradolikaalgoritmerochstrategierförattbehandla särdragsvektorerfrånsignaldata.ExempelpådessaärHiddenMarkovModels(HMM), SupportVectorMachines(SVM)ochK-NearestNeighbor(KNN)(Scaringellaetal., 2006).JagvaldeattbortsefråndessaochintresserademigiställetförGaussianMixture Models. 5.1 GaussianMixtureModel Detärinteorimligtattantaattvissasärdagsvektorerkanstämmaöverensmedflerän engenre.Ettsättattlösadetpåärattrepresenteraklusteravdata,genrer,som GaussiskafunktionerienGaussianMixtureModel(GMM).EnGMMärentäthetsfunktion somrepresenterassomdenviktadesummanavettgivetantalGaussiskafunktioner. Gaussiskafunktioner,ellernormalfördelningar,kanintemodellerakomplexa fördelningar.Iställeträknasettantalfunktionersammanienmeravanceradmodell. Frånmodellenkanmansedan,medenvisssäkerhet,avgöravilketklusterenviss datapunkttillhör(Reynolds,2008).Denviktadesummanberäknasmedekvationen därxärenD-dimensionelldatavektorochwi,i=1,...,M.ärvikternaavdeinkluderade Gaussiskafunktionerna.Vikternauppfyllerkravetatt DeGaussiskafunktionernabeskrivsmedformeln 7 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 därμiärmedelvärdethosenvektorochΣiärenkovariansmatris.Genomattskapa parametraravsamtligamodellkomponentersvektormedelvärden,kovariansmatriser ochvikterfårmanenkomplettGMM,sombeskrivenenligtnotationen Enförenkladbeskrivningärattdeindividuellavektorkomponenternaräknasihop förattmodelleraettövergripandemönster(Reynolds,2008).Ettillustrerandeexempel visasiFigur4. Figur4.Trenormalfördelningar(blå)räknassammantillenGMM(röd). 5.2 Expectation-Maximization Förattprobabilistiskamodellerskavaratillnågonnyttamåsteallavärdenochvariabler varakända.Tyvärrärdetinteovanligtattnågonavdessaparametrarsaknas,att modellenbyggerpåofullständigdata.Enmetodförattlösadettaärattanvända Expectation-Maximization,förkortatEM(Do&Batzoglou,2008).Algoritmenfungerar someniterativtvåstegsprocess. IE-steget,frånExpectation,ersättsokändaparametervärdenmedgissningarsom ärrimligaenligtdenursprungligamodellen.Fråndessagenererassannolikheterförde observeradeutfallen. IM-steget,frånMaximization,beräknasnyaparametervärdenutifrånde estimeradesannolikheternasomgenereratsiE-steget.Dessanyavärdenanvändsföratt genereraenbättremodellsomanvändsinästaE-steg.Dennaiterativaprocessfortsätter tilldessattvärdenakonvergerarochingastörreförbättringarsker(Reynolds,2008). 8 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 6 Träningochklassificering Medhjälpavverktygensomhittillsbeskrivitsärdetmöjligtattkonstrueraettprogram sompåegenhandavgörvilkengenreettmusikstycketillhör.Programmetlärsiggenom övervakadmaskininlärning.Enträningsmängdskapasgenomattettstortantal musikstyckenfrånenradgenrerfårsinamusikaliskasärdragextraherade.Musiken taggasmanuelltpåförhandochanvändssomfacitiinlärningsprocessen(Orio,2006). Utmaningenkommernärnyamusikstyckenskaklassificeras.Musikens särdragsvektorerskickasinienGMM-klassificeraresomjämförvektorernamotde intränadefacitparametrarna.Utifråndenresulterandesannolikhetsfördelningenväljer klassificerarendengenresommusikstycketmedstörstamöjligasannolikhettillhör. 7 Diskussion AutomatiskgenreklassificeringärendastenlitendelavdetväxandeMIR-fältet.Under projektetsgångharjagvidettflertaltillfällettvingatsläggaintressantaalgoritmeroch andraidéeråtsidandådeintevaritrelevantaförprojektetssyfte.Teknikerför exempelvisröstigenkänningärhögstrelevantidagenstekniksamhälleochförekommer iapplikationersomexempelvisSiriellerCortana.Relativtnyaforskningsframsteginom MIRkanrevolutionerahurvikonsumerarmusik.Enframtidasökfunktionär möjlighetenattanvändaenmusikpassagesomsökinput,ochirealtidfåförslagpå artister,genrerellerenskildalåtarsomliknardetkortaexempletsomangavs. Sammanfattningsvisupplevdejagdennaprojektfördjupningsombåde skrämmandeochväldigtintressant.Deenormalitteräraresursernakändesverkligen sombergattbestigaförattbildanågotslagsförståelseförprocessen.Ettgenuint musikintresseunderlättadesäkertattmotiveramigattsättamigindethela. 9 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 8 Referenser Do,C.B.,&Batzoglou,S.(2008).Whatistheexpectationmaximizationalgorithm? NatureBiotechnology,26(8),897–899. Giannoulis,D.,Massberg,M.,&Reiss,J.D.(2013).Parameterautomationinadynamic rangecompressor.AES:JournaloftheAudioEngineeringSociety,61(10),716–726. Grosche,P.,Müller,M.,&Serrà,J.(2012).AudioContent-BasedMusicRetrieval. MultimodalMusicProcessing,3,157–174. Lerch,A.(2012).AnIntroductiontoAudioContentAnalysis:ApplicationsinSignal ProcessingandMusicInformatics.Wiley-IEEEPress. Logan,B.(2000).MelFrequencyCepstralCoefficientsforMusicModeling.International SymposiumonMusicInformationRetrieval,28,11p. Nascimento,C.,Kaestner,C.A.A.,&Koerich,A.L.(2006).AutomaticGenreClassification ofLatinMusicUsingEnsembleofClassifiers.IEEEInternationalConferenceon SystemsManandCybernetics,1687–1692. Orio,N.(2006).MusicRetrieval:ATutorialandReview.FoundationsandTrends®in InformationRetrieval,1(1),1–96. Peeters,G.(2004).Alargesetofaudiofeaturesforsounddescription(similarityand classification)intheCUIDADOproject.CUIDADOISTProjectReport,54(0),1–25. Reynolds,D.a.(2008).GaussianMixtureModels.EncyclopediaofBiometricRecognition, 31(2),1047–64. Scaringella,N.,Zoia,G.,&Mlynek,D.(2006).Automaticgenreclassificationofmusic content.IEEESignalProcessingMagazine,23(2),133–141. Tzanetakis,G.,Ermolinskyi,A.,&Cook,P.(2003).Pitchhistogramsinaudioand symbolicmusicinformationretrieval.JournalofNewMusicResearch,32(2),143– 152. Tzanetakis,G.,Essl,G.,&Cook,P.(2001).Automaticmusicalgenreclassificationofaudio signals.ProceedingsoftheSecondInternationalSymposiumonMusicInformation Retrieval,6totalpages. Wiering,F.(2006).CanHumansBenefitfromMusicInformationRetrieval?Proceeding 10 729G43ArtificiellIntelligens Projektarbete OscarBjurling,oscbj981 AMR’06Proceedingsofthe4thInternationalConferenceonAdaptiveMultimedia Retrieval:User,Context,andFeedback,82–94. 11