单声道多说话人的语音分离和识别

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cxr349150
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鸡尾酒会问题,即在一段同时有多个说话人的语音中追踪和分辨每一个说话人的语音,是语音领域中最重要的问题之一。尽管自动语音识别已经取得了显著的进步,但是在多说话人混合的语音上仍然会有明显的性能退化。近年来由于深度学习在许多任务上取得的成就,研究人员也开始在多说话人语音分离和识别任务上采用深度学习技术。本文将研究基于置换不变性训练(permutation invariant training,PIT)的单声道多说话人语音分离和识别的方法,并从三个方向提出改进模型的方法。首先我们提出直接以语音识别准则为最终目标,设计和训练基于语音特征以及直接基于语音识别的单声道多说话人语音分离识别模型,以及提出用语音特征分离作为辅助任务的联合训练方法,并且进一步在模型中引入了门限卷积神经网络和注意力机制,使识别效果得到显著提升。其次,针对多说话人语音分离和识别任务中,训练和测试数据失配的问题,本文提出了基于辅助特征的说话人自适应性训练方法和使用辅助信息的多任务联合训练方法。最后,本文将语音识别领域中目前最新的端到端语音识别模型应用到鸡尾酒会问题上,并提出了目前最先进的端到端单声道多说话人语音识别系统。本文在人工合成的多说话人语音数据集AMI-mix和WSJ-mix上对提出的方法进行了实验验证。实验结果表明,采用置换不变性训练的单声道多说话人语音识别模型,与普通语音识别系统相比,识别词错误率能够得到显著的改善。
其他文献
目的:观察枳实薤白桂枝汤合半夏厚朴汤加减治疗冠心病稳定型心绞痛(痰阻心脉证)的临床疗效。方法:选取2018年12月至2019年12月期间就诊于黑龙江中医药大学附属第一医院心血管
消毒技术的使用能有效去除饮用水中的致病微生物,降低霍乱、伤寒等疾病的发生。但消毒剂的使用产生了新的问题,消毒剂能和水中存在的天然有机物或无机物作用生成新的有害物质
饮用水消毒能够有效的杀灭水中的致病性微生物,从而防止多种传染性疾病的发生与流行。但在消灭饮用水环境中病原微生物的同时,消毒剂会将水中的溶解性有机物(消毒副产物的前
本文面向便民自助书柜,采用基于图像的书脊检测与识别方法,对书籍的存取借还等操作进行管理和验证,能够减轻人工管理书柜的工作量并提高工作效率。本文结合自助书柜的功能需
由于绝缘子污秽极易对输电线路的稳定运行造成严重影响,因此需要对其进行定期的维护作业。与人工线上绝缘子维护相比,利用具视觉控制能力的输电线机器人则更加安全高效。然而,已有的输电线机器人仍需人工遥控进行线上作业,并且其视觉系统不具有视觉控制功能。与此同时,目前对于绝缘子图像处理算法研究多是基于计算机的,而基于视觉系统嵌入式硬件平台的几乎没有。为满足输电线机器人通过视觉控制辅助实现绝缘子自动维护作业的需
空间站对接机构组合体是我国正在建设的永久服役空间站的关键部件,承担着各舱之间对接、分离、转位和再对接等任务。因此,在其实际应用前,针对对接机构组合体的固有动力学特
大数据时代,科学研究向数据密集型范式发展,科研数据的保存、管理和共享受到科技界的高度重视。当前高校中的小型科学研究数据缺乏良好的保存、共享机制,需要构建专门的科研
现代社会存在着各种各样的全球性危机如粮食问题,能源与资源短缺,环境和生态被破坏等。为了解决这种全球性危机,我们做了些许的研究。选取了两种来源广泛,天然无毒,生物相容
我国柑橘产业发展迅速,栽培面积和产量已跃居世界第一,柑橘产业已成为我国南方广大地区和三峡库区农村经济发展的支柱产业之一。施肥是影响柑橘产量和品质的重要因素之一,合
随着汽车工业的快速发展,全球环境污染和能源危机日益严重,新能源汽车逐步取代传动内燃机汽车已经成为必然趋势。纯电动汽车作为目前新能源汽车的重要类别,由于受动力电池能