论文部分内容阅读
互联网和多媒体技术的飞速发展带来了网络音乐数量的爆炸式增长,使得用户有了很大的选择空间,但同时也给音乐检索系统带来了新的挑战。传统的音乐检索系统多使用提交音乐属性相关的文本作为检索词的方式进行检索,这种音乐属性关键字匹配的音乐检索算法显然已经不能满足人们日益智能化、个性化的检索需求,因此基于内容的音乐检索技术也应运而生。在基于内容的音乐检索技术的研究中,哼唱检索是主流方式,然而这种方式由于过于专业化,很难普及到一般的用户。随着Web2.0技术的发展,研究人员逐步提出了基于语义的音乐检索方式。在诸如Last.fm等音乐网站上,用户可以使用标签对其感兴趣的音乐进行标记和描述,通常这些标签有着比较高的语义信息。然而如果完全根据标签检索会忽视多媒体数据在内容层面的相似性关系,因此如何能够考虑多个模态的特性,让各模态之间互相补充信息,来提高检索准确率,这就需要有一种新的检索方式能够处理不同模态的数据,因此本文的目的就是提出一种跨模态检索音乐方式。跨媒体检索技术是在基于内容的检索技术的基础上发展起来的,通过对来自不同模态的信息进行综合分析,弥补了单一模态检索的弊端,提高了信息检索的效率。本文利用能够表征音乐内容的文本信息和音乐本身的内容信息去综合检索音乐,针对文本特征和音乐内容的底层特征之间的异构和不可比拟性使得跨媒体相似性难以计算的现状,提出了一种基于典型相关的跨模态音乐检索方法,分析了文本特征和音乐内容特征潜在的统计关系,通过子空间映射解决了不同模态之间的特征异构问题,再根据欧氏距离的大小衡量两者的相关性,从而实现了音乐跨模态检索。并且引入查询相关的概念通过权重分配优化了检索结果,进一步提高了检索准确率。本文选取了Rock、emotion、jazz、folk、dancing5种音乐风格语义的文本-音频作为实验数据库,结果表明本文提出的跨模态音乐检索方法能取得较好的效果。