搜索
您的当前位置:首页正文

基于音乐内容和歌词的音乐情感分类研究

来源:小奈知识网
第25卷第8期 计算机技术与发展 COMPUTER TECHNOLOGY AND DEVELOPMENT 2015年8月 Vo1.25 No.8 Aug. 2015 基于音乐内容和歌词的音乐情感分类研究 邵曦,陶凯云 (南京邮电大学通信与信息工程学院,江苏南京210003) 摘要:针对音乐情感分类问题,为了弥补仅仅利用音乐内容进行音乐情感分类的单一模态分类方法的不足,文中提出了 结合音乐内容和歌词的多模态音乐情感分类的方法。主要探讨了如何利用歌词对音乐进行情感分类以及结合歌词和音 乐内容以达到提高分类准确率的效果。对歌词进行特征选择时,分别利用CHI特征选择算法和潜在语义分析(LSA)对歌 词进行降维处理,有效去除了噪声,提高了分类效率。针对多模态融合问题,在传统的LFSM融合方法的基础上,提出了改 进的LFSM融合方法,并通过实验验证了该方法的可行性;同时将该方法与其他传统的融合方法的分类效果进行了比较。 结果表明,改进的LFSM融合方法的分类准确率最高,达到了79.51%,验证了该方法的有效性。 关键词:音乐情感分类;CHI特征选择;潜在语义分析;多模态融合 中图分类号:TP39 文献标识码:A 文章编号:1673-629X(2015)08-0184—04 doi:10.3969/j.issn.1673—629X.2015.08.039 Research on Music Emotion Classiication Based on Music fContent and Lyrics SHAO Xi,TAO Km-yun (College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) Abstract:According to the music emotion classiifcation,an ̄proach of muli-modalt music emotion category combining music content nd layrics is proposed to compensate for lack of the single modal music emotion clssiaifcation method that only uses music content for classiifcation.Mainly discuss how to use lyrics for music emotion classiicatfion and combine music lyrics and content to improve the clas- siifcation accuracy.Using feature selection algorithm based on CHI and quadratic dimension reduction method based on Latent Semantic Analysis(LSA)effectively improves the eficifency of text classiifcation.For mulit—modal fusion prob ̄m,propose an improvod LFSM fusion method based on the tradiitonal LFSM fusion method,and V鲥fy its feasibility through some expefimems and compare the im— proved LFSM fusion method with the othe ̄.The results show that the accuracy of the improv ̄method is highest,reaching 79.51%. that verify the effectiveness of the method. Key words:music emotion clssiaicatfion;CHI feature selection;LSA;muli—modatl fusion 0 引 言 伴随着互联网技术的快速发展和普及,数字音乐 呈现出爆炸式的增长,使得用来处理音乐数据库的音 音乐的底层声学特征,然后应用机器学习来设别嵌入 在音乐信号中的情感。然而,这种单一模态的分类方 法的准确度往往不能令人满意,同时也满足不了实际 MIR系统发展的需要 。通过进一步研究发现,除了 乐信息检索(M瓜)系统受到了越来越多的关注。越来 越多的人希望通过与音乐内容相关的信息来检索音 乐,例如基于流派、情感等高级语义的检索 。 音乐是情感的载体,情感是音乐的内涵和本质特 征 ,对音乐情感的自动识别是近年来MIR系统研究 音乐本身,歌词作为音乐的补充,同样包含了丰富的情 感信息,对音乐的情感分类具有积极的影响。文献[4 —5]也表明,融合音频和歌词的情感分类效果在一定 程度上要优于基于单一音频特征或歌词特征的情感分 类效果。所以,文中研究了多模态的音乐情感分类,在 网络出版时间:2015—07—21 的热点问题。音乐情感分类的一个典型方法就是提取 收稿日期:2014—09—28 修回日期:2014—12—30 基金项目:国家自然科学基金资助项目(609O2o65) 作者简介:邵曦(1976一),男,博士研究生,副教授,研究方向为多媒体信息系统与多媒体通信;陶凯云(1990一),女,硕士研究生,研究方向为 现代语音处理与通信技术。 网络出版地址:http://www.cnki.net/kcms/detail/61.1450.TP.20150721.1453.062.html 第8期 邵曦等:基于音乐内容和歌词的音乐情感分类研究 ・185・ 使用音乐内容的同时使用歌词对音乐进行情感分类, 确率。 并通过某种融合方法将两者结合起来以提高分类的准 多模态音乐情感分类的框架如图1所示。 分 类 结 果 图1 多模态音乐情感分类框架图 包括20维的Mel—Frequency Cepstral Coefficients 1音乐情感模型 (MFCC),21维的Perceptual Linear Predictive(PLP) 想要对音乐进行情感分类,首先需要了解音乐的 中频谱相关系数和9维的PLP中倒谱相关系数。对 情感模型。目前比较有代表性的有Thayer情感模型 于每一维特征都要计算其均值和方差,这样每一个音 和Hevner情感模型。 乐片段都可以由一个100维的特征向量表示。 Thayer情感模型是一个如图2所示的二维情感模 (3)分类过程:使用分类器对特征向量进行处理, 型,它基于能量(energy)和压力(stress)两个维度 。 从而对音乐进行情感分类。 按照能量从平静到充满活力、压力从快乐到焦虑,可将 音乐分为焦虑、生机勃勃、沮丧、令人满足4类。 3基于音乐歌词的情感分类 歌词是包含着丰富情感的文本,根据自然语言处 理技术,首先要对歌词进行预处理。预处理过程包括 去除停用词、将单词转化为词根等。然后进行文本建 模、特征提取、特征选择等等。 3.1歌词的VSM表示 为了方便计算机处理和理解歌词文本,需要对歌 词进行数字化表示。向量空间模型(VSM)是由G Sa1. 快乐 压力 焦虑 ton 等提出的一种文本表示方法,该模型的核心思想 Stress 是将每一篇文档映射为向量空间中的一个点。该方法 图2 Thayer二维情感模型 Hevner情感模型是离散的情感模型,它将情感分 将文档表示成高维空间中的向量,每篇文档对应一个 向量,该向量中的每一维对应文档的每一个特征项。 为“神圣”、“悲伤”、“向往”、“抒情”、“轻盈”、“欢 假设有一个文本集,共包含n篇文档,用到了m个词, 快”、“热情”、“生机”8类,并且这8个类别根据其相 构造“词一文档”矩阵 =Ix =( , ,…, )= , 互关系构成了一个环形,故称为Hevner情感环 ( ,t ,…,f ) 。其中, 表示特征词t 在文档 中 模型 。 由于能量和压力这两个因素,可以较好地与声学 的权重,t 和 分别代表特征词和文档的列向量。特 特征对应I】],所以文中采用Thayer二维情感模型进行 征权重用于衡量特征词t 在文本分类中区分能力的强 弱或者对分类的重要程度。文种采用词频一逆文档频 情感分类研究。 率(TF—IDF)来计算特征词的权重。公式如下: N n 2基于音乐内容的情感分类 TFIDF = ×1og 』V・』 上, 基于音乐内容的情感分类过程主要分为三个 其中,TFIDF 表示特征词t 在文档d,中所占的权 阶段: 重;N ,表示特征词 出现在文档d,中的次数;N. 表 (1)预处理过程:将音频文件转化为统一的格式 示文档 中所有词的个数;D表示文档总数;D 表示 (wav格式,采样频率16 kHz,单声道,时长30 S); 文本集中包含特征词t 的文档数。 (2)声学特征提取过程:在这个过程中主要提取 3.2 CHI特征选择方法 一些描述音乐音色、节奏和音高的底层声学特征,主要 特征选择是为了解决文本分类中存在的两个主要 ・l86・ 计算机技术与发展 第25卷 问题:特征空间的高维性和文本向量空间特征的稀疏 性;而CHI特征选择方法是文本分类中比较常用的特 征选择方法。它度量特征词与类别之间的相关程度, 并假设特征词与类别之间的分布满足一阶的 分 布 。特征词对于某类别的CHI统计值越大,说明它 与该类别之间的相关性越强。特征词t对类别c 的 CHI统计值的计算方法定义为: (£,c )= N×(AD—BC) (A+B)×(C+D)×(A+C)×(B+D) 其中,Ⅳ表示语料库中所有文本总数;A表示属于 类c 且包含特征词t的文档总数;B表示不属于类c 但包含特征词t的文档总数;C表示属于类c 但不包 含特征词t的文档总数;D表示不属于类c 且不包含 特征词t的文档总数。 计算完每个特征词的CHI统计值之后,将所有特 征词按照CHI值从大到小排序,选取前k个词作为特 征子集,“词一文档”矩阵 维数变为k×n维。 3.3潜在语义分析 传统的VSM假设词之间是相互独立的,它认为两 个文本的相似度仅取决于它们拥有的相同词的多少, 而忽略了上下文语境对词义的影响,从而产生所谓的 同义和多义的问题¨ ,进而影响分类精度。另外,经 过上述特征选择之后,虽然文本向量空间的维数得到 了一定的减少,但依然很高¨ ,这就需要进行第二次 降维处理,进一步减少噪声,提高分类精度。 为了解决上述问题,文中采用潜在语义分析 (LsA)来进行二次降维。LSA通过奇异值分解(SVD) 将文档在高维VSM中的表示,映射到低维的“概念” 空间,即潜在语义空间,使得原本稀疏的数据不再稀 疏,并呈现出一些潜在的语义结构,同时有效地缩小了 问题的规模 。 LSA的具体过程如下所述: (1)对 做SVD分解, = ,其中u, 是正 交矩阵, 是由 的奇异值组成的对角阵: =diag(61, 2,…,6 )8l≥82≥…≥6,>0 (2)取 中前P个最大的奇异值构成P×P的 。, 取U和 中前P列构成k P的 和n×P的 ,构建 的近似矩阵,即 = ; (3)对于待分类文本,在经过预处理生成初始文 本向量d之后,同样可以将d投影到潜在语义空间。 具体计算公式为: d =d 4多模态融合 结合音乐内容和歌词的多模态的音乐情感分类方 法主要是通过结合音乐内容的情感分类结果和歌词的 情感分类结果,再重新确定音乐的情感类别。主要有 以下几种融合方法: (1)线性结合晚融合法(Late Fusion by Linear Combination,LFLC)。 LFLC方法¨ 是分别对音乐内容和歌词进行分 类,预测出每一类的概率,然后对概率进行线性叠加, 最后得出音乐的情感类别。参数 ∈[0.1】表示两 种模态各占的权重( >0.5表示歌词占的比重大于 音乐内容)。例如,一首歌曲基于音乐内容和歌词的 情感预测值分别为{0,0.1,0.5,0.4},{0,0.1,0.7, 0.2},当0c=0.5时线性组合结果为{0,0.1,0.6,0.3}, 则最终被分为第3类。 (2)子任务结合晚融合法(Late Fusion by Subtask Merging,LFSM)。 LFSM方法¨ 是基于二维情感模型的融合方法, 它认为音乐内容在能量上有较好的区分度,而歌词在 压力上有较好的区分度 ,所以分别对音乐内容在 能量上分为平静和充满活力,对歌词在压力上分类快 乐和焦虑,然后结合二者的分类结果,得出最终分类 结果。 具体结合方法如表1所示。 表1 LFSM融合法 (3)改进的LFSM融合法。 文中在LFSM融合法的基础上,提出了改进的LF. SM融合法。认为音乐内容不仅在能量有良好的区分 度,它在压力上也有一定的区分度,但是在压力上的区 分度比在能量上的区分度相对较弱(假设1);并且认 为歌词在压力上的区分度比音乐内容在压力上的区分 度相对较强,即在压力维度上,如果音乐内容和歌词的 判断不一致,则优先考虑歌词的判断(假设2)。 具体做法是先将音乐根据音乐内容分为焦虑、生 机勃勃、沮丧和令人满足4类,再根据歌词分为快乐和 焦虑两类,最后根据以上假设重新确定音乐的情感类 别。例如,一首歌曲根据音乐内容被分为生机勃勃 (快乐,活力),而根据歌词却被分为焦虑类,则根据假 设2将这首歌曲分为焦虑(焦虑,活力)。 具体结合方法如表2所示。 第8期 户 艳等:固体火箭发动机喷管的结构设计与性能仿真 ・193・ 的变形和应力在允许范围之内。文中给出的分析方法 和模型等具有通用性,对其他固体火箭发动机喷管设 计具有指导意义。 文中在研究固体火箭发动机球形接头柔性喷管 时,对问题进行了一定的简化,如:对发动机的燃烧室 进行了简化处理,没有考虑球形接头处的密封问题,没 [6] Zebbiche T,Youbi z E.Supersonic two—dimensional minimum length nozzle design at high temperature:application for air [J].Chinese Journal of Aeronautics,2007,20(1):29—39. [7]尤军峰,校金友,张铎,等.固体火箭发动机延伸喷管展 开动力学分析[J].推进技术,2008,29(1):37-42. [8]刘勇琼,汪亮.固体火箭发动机柔性喷管摆动机构的结 构可靠度分析[J].推进技术,1997,l8(4):51-53. [9] 刘勇琼,尤军锋.固体火箭发动机柔性接头拉伸载荷下强 度分析[J].航空动力学报,2003,18(2):264-268. [10]Kraiko A N,Myshenkov E V,P'yankov K S,et 1a.Effect ofgas non-ideality on the performance of laval nozzles with an ab— 有考虑新型的碳/碳复合材料。此外,实际情况中喷管 是运动的,动态状态下喷管性能和喷管的优化设计,需 要在以后的研究中深入探讨。 参考文献: [1]陈汝训.固体火箭发动机设计与研究(下册)[M].北京:宇 航出版社,1992. rupt constirction[J].Fluid Dynamics,2002,37(5):834— 846. [11 1 Rio—Cidoncha M D,Martlnez—Palaeios J,O ̄uSo—Ortiz F. Task antomation for modelling solids with Catia V5『J].Air- [2] 王元友.固体火箭发动机设计[M].北京:国防工业出版 社,1984. craft Engineeirng and Aeosrpace Technology,2010,79(1):53 -[3]邢耀国,董可海,沈 伟,等.固体火箭发动机使用工程 59. [M].北京:国防工业出版社,2010. [4] 鲍福延,郭大庆,赵172. [12]Zhang Xiaoya,You Junfeng,Zhang Duo.Application of AD— AMS and ANSYS to mechanism analysis[J].Journal of Solid Rocket Technology,2010,33(2):201—204. 飞,等.固体火箭发动机喷管集成设 计分析技术研究[J].固体火箭技术,2004,27(3):169— [5]虞跨海,莫展,张亮,等.固体火箭发动机特型喷管造 [13]《导弹与航天丛书》编委会.固体火箭发动机设计与研究 [M].北京:宇航出版社,1993. 型设计与优化[J].弹箭与制导学报,2012,32(4):137一 】38. [14]Sutton G P,Biblarz O.火箭发动机基础[M].洪炯,译.第7版.北京:科学出版社,2003. 鑫,张宝 (上接第187页) 参考文献: [1]刘怡,高弱.一种基于文本关键字模型的Audio音乐 情感分类方法[C]//第四届和谐人机环境联合学术会议 论文集.出版地不详:出版者不详,2008:1-7. [2]蒋盛益,李【3]甄霞,李碧,等.音乐情感自动分析研究[J]. [8]Salton G,Wong A,Yaug C S.A vector space model for auto- matic indexing[J].Communications of the ACM,1975,18 (11):613—620. [9] 程一峰.基于TF—IDF的音频和歌词特征融合模型的音乐 情感分析研究[D].重庆:重庆大学,2012. [10]张玉峰,何超.基于潜在语义分析和HS-SVM的文本分 计算机工程与设计,2010,31(18):4112-4115. 超,宋 爽,许洁萍,等.多模态音乐流派分类研究 [J].计算机科学与探索,2011,5(1):50-58. [4] Yang Dan,Lee W S.Music emotion identiifcation from lyrics 『C]//Proc of the 1lth IEEE international symposium on mul— timedia.Washington D C,USA:IEEE Computer Society, 2009:624—629. 类模型研究[J].情报理论与实践,2010,33(7):lo4—107. [11]熊小梅,刘永浪.基于LSA的二次降维法在中文法律案情 文本分类中的应用[J].电子测量技术,2007,30(10):111— 114. [12]刘云峰.基于潜在语义分析的中文概念检索研究[D].武 汉:华中科技大学,2005. [13]Yang Yihsuan,Lin Yuching,Cheng Hengtze,et a1.Toward [5]Hu Xiao,Downie J S.Improving mood classiifcation in music digital libraires by combining lyrics and audio[C]//Proc of the 10th annual joint conference on digital libraries.New York。USA:ACM Press,2010:159—168. multi—modal music emotion classiifcation[C]//Proceeding of paciifc rim conference on multimedia.Tainan,Taiwan:[S. n.],2008:70-79. [14]Lu Lie,uu Dan,Zhang Hongjiang.Automatic mood detection and tracking of music audio signals[J].IEEE Trans on Audi— O,Speech and Language Processing,2006,14(1):5—18. [6]Taylor J G,Fellenz W A,Cowie R,et a1.Towards a neural— based theory of emotional dispositions f C]//Proe of IMACS IEEECSCC’99.[S.1|]:[S.n.],1999. [7]Hevner K.Expression in music:a discussion of experimentla studies andtheories[J].PsychologiclReviaew,1935,42:186— 2o4. [15]Yang Y H,in Y C,SuL Y F,et a1.A regression approach to music emotion recognition[J].IEEE Trans on Audio,Speech and Language Processing,2008,16(2):448—457. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top