基于旋律信息不变性的哼唱检索技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:pkbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哼唱检索作为基于内容的检索方式,为用户提供了一种通过哼唱部分旋律实现在音乐曲库中找到目标音乐的方式。稳定哼唱特征的提取,一直是哼唱检索技术中的研究难点,由于哼唱者的个性存在着差异性,哼唱特征表现出整体音域不同、部分音高偏移和哼唱速率不统一的特点。针对这三种人声个性化因素,如何保持哼唱信号中旋律信息的不变性,是本文的主要研究内容。本文将哼唱速率不统一作为突破点,逐步对典型的人声个性化表现进行处理,充分地挖掘出哼唱旋律信息中最本质的稳定性信息,从而改进哼唱检索系统的性能。本文的主要研究内容和成果如下:一、哼唱旋律分段关键点和段内细节特征提取的改进。采取先对旋律进行分段、再对段内特征进行深层次提取的特征提取策略,在提高哼唱特征索引效率的同时,挖掘出哼唱旋律的本质特征。旋律极值音符和部分极值音符的中点音符,是旋律信息中最稳定的音符,被称为旋律关键点,是旋律分段的基准。本文从音符间的相互关系入手,优化了关键点的提取效果,在哼唱速率不一致的条件下,保证了哼唱旋律的分段准确性。接着对分段后的段内旋律进行传统特征的提取,包括局部不均匀音域分布直方图统计特征、感知音特征和节奏特征、数理统计特征,并通过多个连续局部统计的特征提取,加强了特征之间的区分性。实验结果表明,该方法对人声个性化因素具有很好的稳定性。二、研究了一种基于深层自编码器的哼唱特征提取方法。在对旋律正确分段的基础上,选取深层自编码器模型,利用神经网络对序列数据的强大的特征提取能力,提取出最能够代表段内旋律的编码特征,作为哼唱信号最终的检索特征。这是一种将段内旋律进行多次非线性空间变换的深层次特征,代表了旋律构成最根本的特征信息。实验结果表明了该方法的有效性。最后为了继承传统特征和自编码特征的优点,联合了传统特征和编码特征共同作为最终的哼唱检索特征,并通过实验证明了该联合特征的稳定性。
其他文献
在影响制度设计的诸因素中,对人性的态度是其中重要的一环。坚信人心向善,必然将制度的希望寄予某个至善至贤的人格化身;而主张人心皆恶,则必然预设对付人之恶德的机制。在西
目的使用健康状况调查问卷简表-36(SF-36)量表评价系统性红斑狼疮(SLE)患者的生存质量(QOL)及其影响因素。方法选择不同病情的SLE患者151例进行SF-36量表调查问卷,分析量表各
随着经济社会的快速发展,教育得到了广泛的关注。在中职教育体系中,师资力量是其重要环节,同时也发挥着重要作用。在教学中,教学反思主要是教师将自身的教学方法不断更新,进
多发性硬化是神经内科常见病、多发病,具有发病率高、致残率高、复发率高的特点。从中医学对多发性硬化病名、病因病机的认识以及中医治疗方法等各方面进行综述,以期提高对多
为充分利用太阳能,延长蓄电池使用寿命,提出了基于最大功率点跟踪(maximum power point tracking,MPPT)的蓄电池充电控制策略。MPPT控制采用改进的变步长扰动占空比控制算法
优信二手车在第四季中国好声音总决赛上投放60秒视频广告,于社交网络上迅速获得广泛关注,并引发病毒式传播。本文一方面通过百度指数、新浪微博话题讨论量来说明该广告属于典
经济学范式功勋卓著,成就了现代经济理论的宏伟框架。可是,诚如库恩所言,作为“常规科学”的经济学范式所做的实质上是“扫尾工作”,尽管这些工作是“令人迷醉”的,但经济学
目的:研究不同方法制备的ADM(脱细胞真皮)的组织相容性及其促毛细血管生长和真皮组织再生重建能力的差异。方法:(1)应用胰蛋白酶消化-去污剂法制备ADM;(2)用0.5mol/L乙酸溶液
抽穗期决定着水稻品种的地区和季节适应性,我国水稻品种抽穗期表现出丰富的多样性。设置长、短日照和高、低温4种环境,分析了来自我国各稻区的83份粳稻和51份籼稻共134份水稻