基于深度卷积神经网络的音乐源分离算法及其应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:h_heart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐源分离是将音乐不同的音轨分离成不同的音频,比如人声源和伴奏源。在标准的单通道混合音乐下,音乐源分离系统的性能已经达到了一定的瓶颈。如何提高在该条件下的系统性能,促进大规模音乐源分离技术的应用推广,这是一个重要的挑战。据此,本文研究基于深度卷积神经网络的音乐源分离模型,设计并实现一套可供用户分离音乐提取人声和伴奏的软件系统,其贡献如下:(1)针对单阶段编码器-解码器网络模型,提出了一种基于二阶段门控编解码网络架构。其中第一阶段为基于编解码卷积神经网络的掩蔽分离结构,第二阶段为小型一阶段模型的映射增强结构。在此基础上,二阶段的联合方式为每个评估源设置了一道扇门、添加控制开关,通过一定的负反馈回路计算的校验值来启动开关。实验证明,所提出的模型相较于SHN模型的人声源和伴奏源的失真率分别提高了0.44d B和0.09d B。(2)针对编码器-解码器网络模型,提出一种可嵌入的融合补偿级联结构,其中,在编码器阶段嵌入融合模块提高特征提取的能力,以及瓶颈层的表征能力;在解码器阶段嵌入补偿模块恢复编码器所丢失的部分信息。实验结果表明,与SHN模型相比,融合补偿级联结构使人声源和伴奏源的失真率分别提高了0.40d B和0.07d B。(3)使用注意力机制和编码器-解码器网络构建音乐源分离模型。使用注意力机制嵌套在二阶段架构上,一方面是使用自注意力机制协调二阶段的控制门,使得第一阶段和第二个阶段的训练更加智能化;另一方面,使用自注意力机制嵌套在编解码的跳跃连接上,解决低分辨率过多重复的问题,并且选择性地级联到解码器。实验结果证明,注意力机制嵌入在二阶段模型与SHN模型相比,有效地将人声源和伴奏源的失真率分别提高了0.53d B和0.20d B。
其他文献
目前,人们对于情感的表达尤为重视,中老年人喜好看新闻短评,时不时会发表自己的态度和观点;年轻人喜好在微博、知乎等平台分享所见所闻。以及一些短视频社交软件的不断涌现,比如抖音、Vlog等,人们表达情感的欲望更加强烈,情绪在生活中的作用也越来越不容忽视。良好的情绪,能帮助自己更好地完成工作;消极的情绪,对身体机能有一定伤害的同时,甚至还会影响健康人格的形成。随着疫情防控常态化,人们对心理健康的关注度上
社交网络信息传播速度快、范围广、即时性强,吸引海量用户通过社交网络分享社会消息、讨论现实事件。社交网络事件通常是现实事件在网络空间的映射,因此研究社交网络热点事件预测具有重要意义与价值。例如,预测热点事件能够辅助相关部门管控谣言传播,避免社会恐慌,维护公共安全。用户在社交网络发布的信息以文本内容为主,文本与事件热度相关性高,并且相较其它事件相关数据更易获取,是事件预测的重要数据基础。然而文本数据价
机器学习是人工智能研究中的关键技术,在医学健康方面有着广泛的应用前景。心血管疾病(Cardiovascular Diseases,CVD)是目前世界上对人类社会造成严重健康威胁的疾病。采用机器学习方法对CVD风险进行精确地预测,可以有效识别高风险患者及危险因素,及时采取相应的干预措施并帮助医疗机构优化资源分配,具有重要的现实意义。针对CVD风险预测,本文进行了以下几个方面的研究工作:(1)研究了基
随着我国社会智能化进程的不断推进,人工智能被应用到越来越多的领域和应用场景,同时由于自动化识别需求的提升,手写汉字图像的自动化识别成为了当下计算机视觉领域的研究聚焦点。本论文针对手写汉字由于字符疏密不同和连笔交叠导致的检测定位困难问题,完成了基于深度学习的离线手写汉字检测算法的构建;同时由于汉字数量过于庞大,且手写字形复杂多变导致的识别分类困难问题,完成了基于深度学习的离线手写汉字识别算法的构建;
随着互联网信息技术的不断向前发展,人们所要面对和处理的数据信息也日益增多,大量且繁杂的信息阻挠了有效信息的传递,在互联网中找到自己感兴趣的内容宛如大海捞针。对于用户和商家而言,推荐系统可以有效地将物品和用户的信息关联在一起,从而实现高效的推送,创造价值。传统的协同过滤算法中所采用的矩阵分解方式在构建用户物品交互矩阵上存在一定的局限性,导致算法限制了矩阵分解的表现力。本文通过采用度量分解与深度学习相
食道癌作为生活中常见的一种癌症,其发病率和致死率都已经排在靠前的位置。当前诊断食道癌的影像主要有电子胃镜、超声内镜、计算机断层扫描、核磁共振等。医生在分析医疗影像时依赖于经验和专业技术,在诊断工作中容易出现耗时费力、精确度不高等问题。为了提升食道癌的确诊率,保障患者的生命健康,急需一种高效快捷的方式来辅助医生进行诊断。深度学习在图像处理领域已经取得了良好的成绩,它能够有效地对图像进行识别、分类以及
交通驾驶环境是一个复杂多变的动态场景,信息错综复杂。经验丰富的驾驶员受人的视觉选择性注意机制影响,能从大量的交通场景信息中迅速搜索到对驾驶任务重要的关键信息,分析并做出预判,保证行车安全。近年来,交通场景的视觉显著性检测技术越来越受到人们的重视。通过分析驾驶员的注意分布,并对其进行建模,从而预测驾驶场景中显著性区域和目标。目前,大多数研究都是针对白天交通场景的预测,然而,由于光线不足、光源干扰,夜
对于介观系统的输运性质,无序在量子自旋霍尔系统、三维强拓扑绝缘体和超导体、分数量子霍尔系统和弱AIII拓扑绝缘体中起着重要的作用,它可以导致金属-绝缘体相变并驱动拓扑相变。杂质的浓度对量子输运有很大的影响。在某些情况下,它们的微小变化会显著改变电导值。因此,有必要进行大量的数值计算来研究杂质能量和杂质浓度对输运性质的影响。本文希望通过流行的机器学习技术来降低这方面的计算成本。并研究利用机器学习方法
得益于科学技术的突破发展和迅速普及,无人车的应用面越来越广,给山地侦查和勘探提供了更加智能的手段,但是山地环境复杂,海拔变化大,气候条件恶劣,如何保证无人车能够快速准确地行进,完成任务是基本的要求。本文从路径规划以及强化学习方法研究现状入手,对环境建模、基于深度强化学习方法的全局路径规划、基于人工势场法的局部路径规划所涉及的相关技术原理进行了介绍,完成基于环境的无人车避障路径规划系统设计与功能实现
循环神经网络(Recurrent Neural Networks,RNN)是一个简洁高效的非线性通用模型,加上时间元素之后,能有效地处理动态系统(包括时间序列)问题。在实践中,RNN的网络结构(包括反馈位置,隐藏层神经元个数,激活函数等)通常需要人为预先确定,这要求丰富的经验或者繁琐的反复实验;另外,RNN的权值参数优化一直是基于梯度方法的,梯度消失和梯度爆炸问题表现得尤为突出,这些都导致了RNN