【摘 要】
:
光学乐谱识别作为乐谱内容符号化的关键技术,有助于音乐文件的存储与编辑,在音乐信息检索和计算机辅助教学等领域还有着重要应用价值。基于通用框架的光学乐谱识别算法存在处理步骤较复杂、精度较低等问题,而基于深度学习的算法虽有效地简化了通用框架,但其识别精度有待进一步提升,对于难点音符的识别误差较大,模型训练耗时久。为此本文提出一种改进的卷积循环神经网络光学乐谱识别方法。 本文中提出的光学乐谱识别算法主要
论文部分内容阅读
光学乐谱识别作为乐谱内容符号化的关键技术,有助于音乐文件的存储与编辑,在音乐信息检索和计算机辅助教学等领域还有着重要应用价值。基于通用框架的光学乐谱识别算法存在处理步骤较复杂、精度较低等问题,而基于深度学习的算法虽有效地简化了通用框架,但其识别精度有待进一步提升,对于难点音符的识别误差较大,模型训练耗时久。为此本文提出一种改进的卷积循环神经网络光学乐谱识别方法。
本文中提出的光学乐谱识别算法主要通过四部分实现:首先,对数据集中部分谱例进行图像增强以扩充乐谱图像数据,提高训练模型的鲁棒性;随后,采用残差式卷积神经网络提取乐谱图像中的音符特征,解决模型退化问题;接着,利用多尺度特征融合,将不同层次的特征信息融合在同一特征图中,以增强模型的特征表示能力,提升后续识别精度;最后,采用双向简单循环单元与链式时序分类函数构成的网络识别音符,将大量计算并行化,从而加快训练的收敛速度,这也使得数据集中数据不再需要与标签严格对齐,也降低了对数据集的要求。
通过四组实验对算法的有效性进行了验证,具体包括:数据增强前后模型的鲁棒性、残差式卷积神经网络的特征提取能力、多尺度融合效果以及简单循环单元对模型收敛速度的作用。实验结果表明,改进后网络模型的平均符号错误率下降至0.3234%,模型训练时间约为传统卷积循环神经网络的三分之一,在识别精度与训练耗时方面均有所优化。此外,还对比了文中所提算法、现有文献中提及算法和三种光学乐谱识别商用软件的性能。实验结果显示,文中所提算法在识别精准度以及训练耗时两项评价指标上均优于现有文献中的算法。与商用软件相比,文中所提方法的鲁棒性更强,且对于音符符梁、休止符等音符的识别效果更优。
其他文献
水声无线传感器网络(UAWSNs)具有重要的实用价值,能够应用在海洋环境测量、海啸预警、海洋军事国防等领域。UAWSNs是无线传感器网络(WSNs)在水下环境的拓广。UAWSNs的水声信道情况要比陆地无线信道复杂得多,传统的WSNs的网络协议往往不能直接应用到UAWSNs中。 在UAWSNs中,水声信号传输速率低,传输延迟长,可用带宽窄,多径效应严重。移动水声通信会伴随严重的多普勒效应。为了保证
目前大多数张量填充方法均假设缺失元素的位置服从随机分布,但实际中张量数据不仅存在随机元素缺失的情况,还可能存在整条纤维或整个切片缺失的情况,即结构性缺失,此时仅利用低秩约束不足以填充这种结构性缺失,还需要针对这种结构性缺失加入其它的先验约束。为此,本文利用张量的TensorTrain(TT)和Tucker展开方式,以低秩矩阵填充和稀疏表示理论为基础,提出了一种针对既带有随机缺失又带有结构性缺失元素
在许多现代通信系统中,常采用在发射机中对发射信号进行卷积编码、在接收机中对接收信号进行Viterbi译码的方式来保证通信的可靠性。其中,Viterbi译码算法能高效地纠正由于信道噪声和其他干扰因素引起的错误,是实现低误码率的关键。基于应用场景的不同,Viterbi译码器可在基于SRAM的现场可编程门阵列(SRAM based Field Programmable Gate Array, SRAM-
大数据与深度学习的发展极大促进了图像分类技术的进步。由于深度学习的数据驱动和监督式学习特性,在训练阶段需要大规模标注样本。然而,现实世界包含数以万计的类别,人工标注需要极高人力物力,且对于某些稀缺类别,往往难以获取充足样本支撑训练。为此,无需标注样本即可对新类别进行预测的零样本学习(Zero-shot Learning,ZSL)逐渐受到关注。零样本学习模仿人类可利用辅助语义信息对未见事物进行推断的
水声多载波通信技术是当今水下通信中应用最为广泛的一种技术,具有传输速率高、鲁棒性好以及传播距离远等优点。但是,水声通信信道具有带宽受限、多径效应严重、多普勒效应严重等特点,多载波通信在水声通信方面依然面临着许多挑战。其中严重的多普勒效应对多载波通信影响巨大。 本文设计了一种新型的多载波调制方式,提升系统传输效率,并添加合适的多普勒估计补偿技术,用于水声通信系统中,提升多载波通信系统的传输性能。本
随着互联网规模的爆炸式增长,雾计算、人工智能等创新技术的不断发展,互联网加速了由“通信信道”向“数据处理平台”的角色转变。在此情况下,一种以网内缓存为特色、面向通信内容的新型互联网架构——命名数据网,于2010年被提出并迅速得到国内外学术界的广泛关注。然而,命名数据网各领域的研究尚有大量技术瓶颈需要解决,特别是其内容路由器转发平面,仍然面临着诸如快速检索差异化名称数据、高效存储转发信息、有效支持名
随着信息技术的飞速发展,电子信息技术在如今的战争局势也发挥着越来越重要的作用。在电子对抗领域,对非合作目标源的定位问题一直是国内外学者广泛研究的热点。区别于雷达等对辐射源发射信号并接收回波的有源探测方式,无源定位是通过检测和估计辐射源的电磁波参数来确定辐射源位置。由于多站联合定位的方式效率低下并且风险较大,因此本文对实际应用更为灵活的单站无源定位展开研究。 本文主要对无源感知问题中的目标定位模型
特征选择是维数约简的一种重要手段,其通过保留有效特征,消除无关和冗余特征,从原始特征集中选择一部分特征构成特征子集,从而达到数据降维的目的。然而,现有的一些特征选择算法难以保证在选择过程中同时考虑特征的相关性、冗余性和交互性三方面性质,导致算法的特征选择性能有限。此外,随着深度学习技术的发展,卷积神经网络在各个领域的应用越来越广泛,其常被用于提取图像特征,但大多数特征选择算法针对的都是传统的数据集
随着科学技术的不断发展和提高,立体显示技术被越来越广泛地应用在人们生活工作的各个领域。但是由于当前立体显示技术大多基于立体视差原理,视差所引起的辐辏调节冲突会引起观看立体影像时出现视觉不舒适的现象,降低了观看体验。因此,对于辐辏调节冲突对立体影像视觉舒适度影响的认知研究具有十分重要的意义。 本文首先采用脑电技术对单一视差所引发的视觉舒适度进行研究,提取了视差引起的舒适与否两类脑电信号的特征。将客
机器人技术涵盖众多的学科,包括机械制造、传感器应用和识别、电子技术、自动化与人工智能等。近些年,自动化技术和人工智能技术的不断发展大大推动了机器人技术的进步。根据应用场景不同,可将机器人分为工业机器人、农业机器人、家用机器人、医用机器人等。随着机器人的发展和大范围应用,对机器人智能化的要求越来越高,其中自主导航水平是评价一台机器人智能化的关键指标,而路径规划是机器人导航的重要组成部分。 路径规划