【摘 要】
:
针对传统的语音识别系统采用数据驱动并利用语言模型概率来决策最优的解码路径,在部分场景下解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合的语言模型概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征,然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义
【基金项目】
:
科技创新2030-“新一代人工智能”重大项目(2020AAA0103600);
论文部分内容阅读
针对传统的语音识别系统采用数据驱动并利用语言模型概率来决策最优的解码路径,在部分场景下解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合的语言模型概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征,然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在千小时及万小时级别的语音识别任务上分别较端到端语音识别基线提升了相对5.2%和5.0%,进一步改善了语音识别结果的可懂度。
其他文献
《暮江吟》是唐代诗人白居易的一首清新绮丽的小诗,选编在统编版语文教材四年级上册。该诗从暮色时分江面上斑斓的光影写起,不知不觉已是月上中天、晓露沾衣,诗人怜之爱之、吟之诵之,流淌出一首浑然天成、脍炙人口的千古名篇。教学中,从"暮"破题,进而聚焦"铺",再而赏析"怜",最后落脚在"吟",可形成"起于’暮’、品于’铺’、赏于’怜’、归于’吟’"的教学篇章。一、起于"塞"古人日出而作、日落而息,对时间流逝
《题西林壁》,一首"艳压庐山客"的哲理诗,它的长处不在于形象描述或感情抒发,而在于富有理趣。"不识庐山真面目,只缘身在此山中",这千古一叹,令多少文人墨客为之倾倒。但是,《题西林壁》作为诗歌精品引入课堂的今天,教者不能"当局者迷",解读和教学如此"意无穷"的哲理诗,必须"横看侧看,远近高低",踏上一次"追逐灵魂"的精神之旅。作者的半生"迷"创作《题西林壁》时,苏轼正陷在乌台诗案中:坐
一、复习导入,扣题学诗1.上节课,我们学习了第一首诗《暮江吟》。说一说诗句"一道残阳铺水中,半江瑟瑟半江红"描绘的景象。2.今天,我们一起学习第二首古诗《题西林壁》。(1)读诗题,注意停顿。(题/西林壁)(2)解释诗题。(题:书写,题写。西林:西林寺,在江西庐山)这首诗被题写在西林寺的墙壁上。
针对当前保密监管的技术现状,本文分析了当前保密信息监管的主要监管范围及其局限性,提出并论述了语音信息保密监管的必要性与重要性,同时对语音信息保密监管的核心技术——语音识别技术的基本原理进行了分析,对语音信息保密监管的具体方法及技术路线进行了讨论,选择基于大规模连续语音识别的方法作为语音信息保密监管的底层支撑技术,并在此基础之上提出一种基于置信度的语音信息保密监管匹配算法,通过同音词扩展的方法提升监
“我生来就是高山而非溪流,我欲于群峰之巅俯视平庸的沟壑。我生来就是人杰而非草芥,我站在伟人之肩藐视卑微的懦夫!”这段自信、霸气的话语是云南省丽江市华坪女子高级中学的誓词。誓词催人奋进,校长张桂梅的故事更加令人感动、给人鼓舞。下面,让我们走近“燃灯校长”张桂梅,汲取前行的力量。
立德树人是高校教育的本质,“三全育人”教育背景下,高校课程思政建设势在必行,专业知识和技能的学习固然重要,正确的人生观、世界观、价值观的树立却能让学生在专业格局上有更长足的认知发展。由于课程内容与性质不同,思政教育路径亦会不同。本文以西南财经大学天府学院视传专业的《UI设计》课程为例,对该课程思政教育路径进行探索。
为了解决非英语母语学习者在语音识别中出现的语法错误问题,提出了基于神经机器翻译的语法错误检测语音识别中的语言模型。将构建的语言模型与传统的语言模型进行了比较,分析了该语言模型算法在语法错误检测中的性能。结果显示,由于神经机器翻译具有特定的内部结构,可以结合上下文信息进行语音识别,神经机器翻译模型可以更好地进行语法错误检测。通过比较不同语言模型结果,该方法比基于规则的方法有显著优势,神经机器翻译语言
本例患者为老年男性,起初表现为感染后急进性肾炎综合征,C3降低及抗溶血性链球菌O(ASO)升高,最初误诊为急性肾小球肾炎,疗效差。结合肾活检病理及C3持续减低,确诊为C3肾小球肾炎(毛细血管内增生性),经治疗后肾功能显著改善。但1个月后患者出现大量蛋白尿,重复肾活检病理为C3沉积为主的新月体性肾小球肾炎,经血浆置换、糖皮质激素、环磷酰胺等治疗后,蛋白尿明显好转、肾功能稳定。
地铁交通运营是一种整体性活动,离不开各部门间的协调配合,地铁运营岗位应急处置培训系统应用于多个岗位的联合培训。该系统通过语音识别来实现模拟岗位间语音交互及对培训过程智能评价的功能。提出的语音识别方法可实现离线网络下对地铁培训专业术语的高识别精度,利用深度全序列卷积神经网络(DFCNN)和链接时序分类(CTC)构建声学模型,对应急处置培训用语进行整理并构建专业术语库,基于统计学构建语言模型。实验结果