论文部分内容阅读
计算机和互联网技术的普及促使大量数字音乐、音频文件出现并以前所未有的速度广泛传播。传统的采用元数据进行音乐管理、检索的方式因数据量大、人工标注繁琐、个人主观性影响等因为已经无法满足应用需要。多种形式的检索需求也要求将关注点放在音乐文件本身。基于内容的音乐识别与检索技术从音频的内容出发,通过信号处理技术获得代表音乐旋律的特征信息,经过合理的架构设计和一系列处理方法,可以实现对大规模音乐文件的组织管理和检索。
在开展基于内容数字音乐检索的研究中,本论文的主要成果与创新有:
1)提出一种对YIN算法的改进。首先使用小波域自适应软阈值去噪算法对输入的音频信号进行去噪并实施预加重,针对语音特性,改进YIN算法提取代表旋律变化的音调特征,提出一种“小阁”后处理算法,对得到的基音序列进行规整化处理,得到最终描述旋律变化的音符曲线。
2)以音律学十二平均律为理论基础提出更符合乐理要求的旋律特特征定义方法。基音序列被转换为(音高,音长)向量形式后,将代表频率的基音值转换为代表音调的半音音程序列,然后以前后音程差作为描述旋律变化的特征,同时按照音频采样率与基音提取加窗宽度计算音长值,并与数据库中特征做归一化。
3)提出一种通过分析MIDI文件实现大规模音乐旋律特征库快速创建的方法。提出MIDI预处理、主音轨认定、音高音长提取、乐句自动划分、特征存储等方案实现从MIDI文件获得可用旋律特征的方法。实验表明,MIDI分析是实现准确、快速建立特征库的最佳方法。
4)设计了一种通过旋律曲线几何配准和旋律特征字符化模糊匹配的相似度衡量方法。将旋律特征向量表示之后,在歌曲特征序列上反复选择具有合适长度的特征片段集合,进行拉伸等长及对齐操作之后,使用差序列的均方差作为相似性衡量指标。旋律特征按十二平均律规律字符化后,提出有限长度的最长公共子序列模糊匹配方法,实现局部最相似的匹配。
5)设计开发了具有良好交互界面的检索系统并实现Web发布。为检索系统设计了一种便捷的交互界面,可以方便采集用户音频输入,实现检索,按相似度返回乐曲列表曲,单击乐曲即可实现播放。采用PHP和Socket技术实现基于Web的用户音频、文字信息的获取和检索结果的反馈。方便多用户同时在线使用。
该项目的研究丰富了基于内容多媒体检索的体系,为音乐信息的组织提供了新的方法,对音频形式智能人机交互研究提供了有力的支持,并为数字音乐图书馆、自动谱曲等相关研究提供借鉴。