【摘 要】
:
伴随着全球化趋势的加剧,各国间文化贸易交流日益紧密,多语言混合使用已经成为日常生活当中的常见现象。作为人机交互的入口,现有的大多数最先进的语音识别系统都只专注于单语种语音识别,即它们一次只能处理一种语言,无法识别混合语言的语音。因此,构建能够识别混合语言语音的自动语音识别系统显得尤为重要。近年来基于DNN-HMM算法的系统成为语音识别声学建模的主流框架,但对于多语言混合语音识别任务,它有一些明显的
论文部分内容阅读
伴随着全球化趋势的加剧,各国间文化贸易交流日益紧密,多语言混合使用已经成为日常生活当中的常见现象。作为人机交互的入口,现有的大多数最先进的语音识别系统都只专注于单语种语音识别,即它们一次只能处理一种语言,无法识别混合语言的语音。因此,构建能够识别混合语言语音的自动语音识别系统显得尤为重要。近年来基于DNN-HMM算法的系统成为语音识别声学建模的主流框架,但对于多语言混合语音识别任务,它有一些明显的局限性。首先,常规DNN-HMM语音识别系统是基于拼音、音标等一些声学单元建模,在不同语言之间的声学单元相互独立,且声学属性不同。通过多种不同语言的独立发音字典无法很好地建模不同语言声学属性之间的联系。其次由于混合语言语音的特殊性,语言转换处训练数据稀疏,DNN-HMM系统无法有效建模两种语言相接处的声学属性。因此,本文采用端到端(E2E)策略,搭建并研究基于Transformer框架和联合CTC训练的端到端中英文混合语音识别系统。其完全基于神经网络统一建模,省去DNN-HMM中词典、声学模型、语言模型等模块,能够对输入至输出整体优化;且端到端模型通常基于字符建模,建模单元不再完全与声学单元一一对应,能够模糊建模单元与声学属性之间的关联,使得网络能够自动平衡不同语言语音之间的相似性与区分性;同时由于端到端模型摆脱了独立性假设,能够学习到语言切换处的声学属性。进一步地,本文基于Transformer还创新性地提出了两种改进的方法。分别是:(1)基于Transformer框架提出基于自注意力与混合注意力机制的声学建模方法。(2)为了更好挖掘中英文两种语言之间声学上的共性和区分性,本文提出“多编码器-解码器Transformer”结构。本文中混合语言语音识别实验均基于国际公开的中英文混合语音识别数据集SEAME。实验结果证明,在SEAME数据集的两个测试集上,本文所提出的两种声学建模算法相对于基线标准Transformer系统及基线DNN-HMM系统,识别性能均有明显提升。
其他文献
课堂评价是教学和学习过程中不可或缺的一个环节,课堂评价水平较高的教师能够快速、准确的研判学情,采取更为有效的教学。目前国内外对小学英语教师课堂评价的研究还不多,本研究对小学英语教师课堂评价素养的基本特征和影响因素进行调查研究。在文献分析基础上,本研究将小学英语教师的课堂评价素养作为一种学科教学认知来研究,认为教师课堂评价素养是教师在自身评价知识储备和能力的基础上,以课堂为核心,在课堂回答、课堂练习
胰岛素抵抗(Insulin resistance,IR)是指胰腺细胞分泌的胰岛素不能像正常人那样增加葡萄糖的吸收和利用。而在胰岛素信号转导障碍、肥胖、自噬等因素以及糖代谢异常的影响下,会促使IR的加速形成。有证据表明,长期有氧运动可以提高骨骼肌能量代谢水平,使骨骼肌产生生物学适应并刺激上调自噬表达水平,胰岛素敏感性被调节,预防了IR的发生。自噬作为细胞的一种自我防御机制,在运动防治IR的机制中发挥
近几年来,随着新媒体的发展,用户对阅读的需求也发生了改变,逐渐从传统的纸质化阅读开始向电子阅读发展。微信公众号作为一种以移动网络为载体的服务,为图书馆信息服务提供了新的平台。图书馆可以通过公众号更新资源动态,提供各项服务。用户可以通过图书馆公众号查找文献资源,这样可以提高图书馆资源的利用率。在尽量满足用户需求的前提下,高校图书馆公众号应该顺应时代的发展,寻求更优的发展途径,跟上技术发展的步伐,这样
经济全球化的深入发展逐渐催生出一种全新的经济增长方式即知识经济,与此同时企业面临的挑战也日益升级。为了实现自身核心竞争力的突破,创新将成为企业面临的关键问题,而创新能力的高低更是企业发展好坏的命门所在。作为知识管理的核心,知识共享通过分布式创新能力对企业绩效产生显著影响,并最终决定着能否拥有持续的市场竞争优势。本文主要研究企业创新过程中知识共享、分布式创新能力对创新绩效的具体作用机制。在梳理相关文
声纹攻击检测技术是在声纹识别快速发展后需要被极大关注的一个热点,当今时代,声纹识别越来越广泛地应用于各大领域,相关研究表明,声纹识别技术受到恶意欺诈攻击变得极为容易,主要分为合成攻击和回放攻击。随着攻击手段更加方便有效,声纹识别系统的应用和推广面临很大的威胁,因此研究检测合成和回放语音攻击的系统具有迫切需求和重大意义。本文主要围绕合成语音攻击和回放语音攻击两个方面进行了相关检测算法研究。主要体现在
近年来,随着自然环境遭受越来越严重的破坏,人类的生存环境越来越恶劣,国家越来越重视绿水青山的保护,可持续发展势在必行,学者们开始关注与环境有关的行为,而以往关于环境行为的研究主要聚焦于组织与领导这样的宏观层面,对企业员工个体层面上的环境行为研究较少。在社会组织中,应当承担环境责任的主体众多,其中企业在改善环境方面占据重要地位,员工是企业最重要的组成部分,员工的亲环境行为对企业在绿色发展方面的表现起
班级是学生学习与生活的重要场所,也是学生获取知识与身心发展的重要环境之一。近年来,许多研究都表明良好的班级氛围能够促进学生的心理健康、提高学生的学习成绩、培养学生良好的道德品质、提高学生的综合素质。可见良好的班级氛围对学生的身心发展等方面起着非常重要的作用,但近年来校园欺凌事件的频频发生对学生的学习与生活环境造成了威胁,为此,本研究从中学生校园欺凌的角度出发对班级氛围的影响机制展开相关研究。研究以
在照明不断发展的今天,LED被频繁应用于各种生活、学习、工作场景。它具有的安全、稳定、节能、绿色环保的优点,给人们提供了很多便利。然而,随着人们对于LED研究的深入以及对照明品质的要求。LED存在的问题亟待解决。目前市面上的LED产品主要由黄色YAG荧光粉与蓝光芯片组合而制成,使用的点胶涂覆法会导致明显的眩光效应和蓝光危害。在长时间的工作、功率升高后,引起的荧光粉温度猝灭、硅胶黄化、热稳定性变差、
日益增长的化石燃料使用及大量CO_2排放,引发了全球能源危机和气候变化。光催化CO_2减排是利用太阳能,将其转化为碳氢化合物燃料,具有清洁、经济、环保特点,不仅解决能源危机和环境问题,同时实现了碳循环利用,具有重要的学术意义和应用前景。目前光催化CO_2转换效率普遍较差,一方面是由于CO_2是碳氧双键构型,结构稳定,导致活化难度大。另一方面,CO_2的难以在水中进行溶解,导致其在催化剂上的吸附困难
近些年,随着集成电路的发展,传统硅基场效应晶体管的尺寸和性能逐渐趋近极限,研究新的替代器件十分有必要。石墨烯在力学、光学、电学、化学、生物等各方面性能具有明显的优势,引起了研究者的广泛关注,由石墨烯构成的石墨烯场效应晶体管(GFET)已经被应用在生化传感器、太阳能电池、高速电子器件、触摸屏及柔性印刷电路等各领域[1]。然而,由于石墨烯具有零带隙的特性,GFET器件的开关电流比很小,阻碍了其在半导体