文本语音匹配的研究和应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:iamwoceo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类最重要的交流工具,而文字则是人类用来记录语言的符号。随着多媒体、计算机网络和语音识别技术的高速发展,文本语音匹配成为基于内容的音频和多媒体数据分析和计算机辅助语言教学等领域中的十分重要的问题。文本语音匹配是以语音识别系统的核心技术为基础,对参考文本和对应语音进行强制对准的过程,其目的在于获得语音与文本之间的时间对应关系,从而用于模型训练、语音评价、媒体检索、广播电视出版等多个领域。作为语音识别领域的关键技术之一,文本语音匹配算法的研究多年来受到研究人员的普遍关注。近年来,该领域的研究主要集中在尝试利用各种方法来提高匹配的准确率和鲁棒性,包括环境音素的影响,对超长语料的处理,以及对不完全匹配的文本和语音进行匹配等方面。本文在系统论述目前国内外文本语音匹配技术发展现状的基础上,针对大量连续语料和不完全匹配语料给出了对准方法,以解决对准过程中存在的性能和失配问题,在此基础上设计和实现了一个对准引擎,并应用于智能英语口语训练平台的内容制作和语音评分,主要工作和创新点包括:1.提出一种基于模糊逻辑的多特征音频分类算法。该算法将语音似然度(speech likelihood)的概念和模糊逻辑理论引入到音频分类的研究中,综合考虑音频片段的多维特征,利用模糊逻辑推理系统标识其中的语音部分。实验表明,该方法可显著改善分类性能。2.提出一种改进的基于扩展匹配网络的容错对准算法。该算法通过对匹配网络进行扩展,对局部的单词和短语级别的插入、删除和替换错误均可进行检测,有效地提高了传统的强制对准算法的准确性。3.提出一种适用于大量连续语料和非完全匹配语料的对准算法。该算法将大规模文本语音的对准问题转化为一个多阶段决策过程的最优化问题,进而应用动态规划思想进行求解,以解决大量连续语料在文本语音匹配过程中存在的失配问题。实验表明,结合相应的纠错和剪枝策略,该算法的匹配准确性和鲁棒性均得到大幅提高。4.在上述算法研究的基础上,结合自然语言处理技术和语音评分技术,设计并实现了一个适用于大量连续语料和不完全匹配语料的对准引擎。该引擎已应用于互动英语教学系统的内容制作和计算机辅助的口语评分,由该引擎提供支持的包括TALKPALTM语音评价系统等在内的多个e-Learning教育平台已投入使用,并获得了来自南美、欧洲、亚洲等地区的用户的良好反馈。
其他文献
以党的十九大报告中关于乡村振兴战略的'产业兴旺、生态宜居、乡风文明、治理有效、生活富裕'总要求为导向,根据中国知网(CNKI)出版物检索结果,从种类与质量、栏目设
<正>项目主体>万达快钱项目执行>势能整合营销传播机构(以下简称势能整合)项目简介:十年来,势能整合为万达金融旗下快钱公司创新地提出了"国内领先的信息化金融服务提供商"和
碳一化学相关应用型人才培养,是当前化工类高校特色办学的定位点之一。建立完善的理论联系实践的教学体系,课堂-仿真实践-工厂实践三位一体教学模式,强化学生理论联系实践能力,“
现如今随着移动通信与互联网的逐渐融合,移动互联网将成为未来互联网中最大的发展方向之一,将移动通信技术的发展与图书馆信息服务结合起来,引入了移动图书馆概念,并且对自身发展
本文的研究基于几何变分理论和偏微分方程理论,主要讨论了图像处理中的几个常见问题,如图像去噪,图像分割,图像去模糊,图像增强等。基本的思路是根据不同的背景提出相应的能
"大规模抢注"行为是指商标申请人明显缺乏真实使用意图、大量注册与他人有一定知名度的商标或者其他标识相同或者近似的商标的行为。司法实践中逐渐形成了将该行为视为《商标
随着我国的经济的快速发展,人们对公共档案的认识也日渐提高,尤其在婚姻登记档案管理工作上。婚姻登记档案是证实婚姻关系的重要档案,特别是现在婚姻关系和财产,房产都有很密切的
基于非对称空间传热理念,设计了一种新型双回路逆流干式蒸发器,并将其安装在空气源热泵机组上进行实验测试。理论计算和测试结果表明:制冷工况下,干式蒸发器总表面传热系数的
美术馆的艺术档案反映了多年来的艺术积淀,有益于人们对美术艺术的了解,因此,美术馆艺术档案的管理和利用至关重要,这项工作能否做好关系到人们能否更为方便的了解,更重要的是关系
人事档案管理工作的重要性不言而喻,在保障人事工作的有序、稳定中发挥着巨大的作用。在当前形势下,随着信息技术的不断发展,人事档案管理也受到了相应的影响,传统的管理方法已经