乐音信号的识别与记录方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:piaodedaocao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为音乐识别与音乐信息记录与检索的基础组成部分,乐音信号的识别估计与乐音信号的记录检索越来越受到相关研究人员的关注,乐音的多样性决定了乐音信号识别的复杂性与困难性。为了解决乐音信号识别中的问题,本文对语音或乐音识别中的声音信号的分析方法进行了改进,主要做了如下工作:根据听觉场景分析等知识,结合信号处理、乐理以及音乐声学知识,提出了乐音信号听觉元素分离与重构的方法。该方法针对现阶段乐音识别中的信息量冗余较大的问题,将乐音信号帧的连续频域信息分割为栅格化的频域信息,并转化为重组频谱图、谐波分布矩阵与谐波能量矩阵,以实现声音信号数据量的缩减。运用听觉元素的分离与重构方法,针对基频丢失、不谐和乐音、低信噪比乐音识别的不准确性,时频域分辨率不可兼顾等问题,对乐音音高识别方法进行了改进。改进后的方法可以实现乐音识别中谐波丢失、不谐和因子以及低信噪比等多种特殊情况的准确识别。通过优化计算方法,对原有方法进行改进,实现谐波修正方法修正基频信息,有效解决由分辨率不足引发的识别误差,提升分辨能力。运用听觉元素的分离与重构,针对电子音乐与音乐现场的单向不可逆性,对已有的音乐信息记录与检索方法进行改进。将声音信号帧转化为具有音乐特征的矩阵形式进行储存与识别,有效减小音乐数据的存储空间消耗,解决现场音乐与电子音乐之间的不可逆性,同时将乐音信号转换为矩阵形式,使实现乐音可视化。改进后的乐音音高识别方法在整个乐音音区的各类乐音总体识别准确率可以达到91%;针对噪声干扰问题,可包容最低13d B的低信噪比;针对不谐和乐音的识别,可包容的最大不谐和因子为βlim(28)0.004;对于时频域分辨率不可兼顾的问题,在不增加过多运算量的前提下,利用乐音信号的谐波特点,使用分辨率冗余位置的谐波进行基频谐波修正,改善静态分辨率的不足,实现低音区与中音区识别分辨力4倍的动态提升。同时,有效在基频丢失、高次谐波丢失等谐波丢失的情况下具有鲁棒性,将基频丢失乐音识别的准确率由之前的0.3提升至0.85。在时域分辨率能够满足日常识别需求的情况下,较相同最小分辨率的小波变换有更好的实时性,运算复杂度为小波变换方法的0.01-0.05倍。改进的音乐信号的记录与检索方法可以有效实现音乐信号帧的信息记录与信息的对比匹配,音乐数据的存储可以节约12%的存储空间。
其他文献
品牌建设是我国由大变强的重要工作,习近平总书记关于“三个转变”的讲话、国务院办公厅《关于发挥品牌引领作用推动供需结构升级的意见》文件、国家质检总局《质量品牌提升“十三五”规划》,确定了国家的品牌战略,天津市制定的《天津品牌指数及评价方法》是天津市品牌建设工作的重要组成部分。本文基于知识图谱和问答系统技术,构建了品牌指数知识图谱,研究和开发了“品牌指数问答系统”,系统能够回答品牌指数平台相关的问题。
自然语言处理的发展离不开语言模型的发展,神经网络的出现为语言模型的研究和应用发展提供了强大动力,基于神经网络的语言模型也层出不群。然而,神经网络语言模型的研究过程中也存在一些问题,需要研究和解决。面对神经网络语言模型越做越大,参数的调整是一个重大的难题,找出一个可以度量网络表达能力的理论分析,让参数的调整变得容易变得十分重要。其中对于模型的压缩,减少模型参数量也成为一个重要的研究热点。本文主要针对
互联网和多媒体技术的快速发展使得存储、传播和复制音频文件更加容易和便捷,但同时也带来了侵犯版权和音频信息被篡改等问题。音频水印技术是解决侵权行为和信息被篡改问题的有效技术手段。音频水印技术利用音频信号自身的冗余特性和人类听觉系统的掩蔽效应,在不影响音频信号感知质量的前提下,将水印图像嵌入到载体音频中,以达到对音频版权的保护和信息完整性鉴定的目的。音频水印算法中水印的嵌入位置和嵌入强度对水印算法的不
混沌系统因具有伪随机性、不确定性、不可预测和对控制参数与初始条件的极端敏感性等特点,比较适合用于图像数据信息的加密。在图像数据信息加密中引用混沌理论的良好特征,对于图像数据的保护能够起到非常重要的作用,具有较强的实际意义。本文提出了一种改进的Logistic混沌映射,并结合梯度分解、Arnold变换、剪切波变换、矢量合成和Gyrator光学变换,提出了两种图像加密新方法。本文的具体研究内容如下:(
随着科学技术与信息产业的迅速发展,全球的信息总量正在呈爆发式增长,现有的存储设备将难以满足现阶段信息存储的需求。DNA分子作为一种存储密度高、安全稳定的信息存储介质,有望满足未来信息存储的需求。DNA合成技术作为DNA信息存储的基础层技术,开展高保真高通量DNA合成技术及仪器的相关研究对于信息存储具有重要意义。传统亚磷酰胺DNA化学合成方法,错误率较高、易产生化学污染,而酶促DNA合成在合成精准度
光照是决定水下图像质量的关键因素,水下环境因为受到水质、水深、物体遮挡等因素的影响,光照会严重不足,使得获取的水下图像存在颜色失真、亮度和对比度低、清晰度差等问题,这些问题给水下图像的实际应用带来极大的困难。本文结合图像增强和深度学习理论,针对这些问题开展研究,主要工作如下:提出一种基于白平衡和相对全变分的低光照水下图像增强算法。根据光线在水中选择性衰减的特性,首先对水下图像进行全局光照补偿以提高
近年来,随着互联网带宽的增加和计算机处理能力的提高,多媒体数据,特别是视频数据在世界范围内呈增长趋势。拥有大量的视频数据还需要有效地存储、汇总、索引和检索这些数据的技术。近年来,由于体育视频的商业性,人们越来越重视对其进行总结、索引和检索的技术。本文提出了一个将板球视频分为四个项目之一的框架,即Bowled Out、captured Behind、Catch Out和LBW Out。该框架使用每个
大脑分割对于疾病诊断和治疗的脑结构评估是个关重技术。本研究对脑分割进行了大量的研究。然而,先前的研究并没有考虑从大脑图像的背景中分离出实际的脑像素。不进行这种分离可能造成以下的結果:(a)扭曲大脑分割模型,(b)增加建模性能的开销。在这篇论文中,我们使用三维全卷积神经网络来改善脑分割的性能模特儿们婴儿和成人数据集,以及多实例丢失方法,用于从背景中分离实际的大脑像素,并应用Gabor滤波器组和K均值
阻塞性睡眠呼吸暂停(OSA)是一种常见的睡眠障碍,是心血管疾病的危险因素之一。打鼾是阻塞性睡眠呼吸暂停综合征患者的典型症状。上气道阻塞和振动的位置,决定了打鼾和阻塞性睡眠呼吸暂停综合征的手术方案的选择。为了寻找一种能够替代药物诱导睡眠内窥镜检查(DISE)的非侵入式的方法,实现对打鼾时上气道阻塞和振动位置的准确定位,本文提出了一种基于特征融合的深度语谱特征的鼾声分类方法。本文使用的数据是Munic
藏语是藏族使用的主要交际工具,属汉藏语系藏缅语族,是藏缅语族中分布最广的语言,在国内外都有较为广泛的分布。在历史发展的过程中,由于各方面的原因,不同地区使用的藏语相比古藏语来说都产生了较为明显的变化,一些地区的藏语产生了音调,一些地区藏语的浊音开始清化,形成了不同地区的方言。我国藏语方言的划分普遍接受的是三大方言划分法:安多方言,卫藏方言(又称拉萨方言)和康方言。本文将致力于研究这三种方言之间关于