论文部分内容阅读
语言是人类最重要的交流工具,而文字则是人类用来记录语言的符号。随着多媒体、计算机网络和语音识别技术的高速发展,文本语音匹配成为基于内容的音频和多媒体数据分析和计算机辅助语言教学等领域中的十分重要的问题。文本语音匹配是以语音识别系统的核心技术为基础,对参考文本和对应语音进行强制对准的过程,其目的在于获得语音与文本之间的时间对应关系,从而用于模型训练、语音评价、媒体检索、广播电视出版等多个领域。作为语音识别领域的关键技术之一,文本语音匹配算法的研究多年来受到研究人员的普遍关注。近年来,该领域的研究主要集中在尝试利用各种方法来提高匹配的准确率和鲁棒性,包括环境音素的影响,对超长语料的处理,以及对不完全匹配的文本和语音进行匹配等方面。本文在系统论述目前国内外文本语音匹配技术发展现状的基础上,针对大量连续语料和不完全匹配语料给出了对准方法,以解决对准过程中存在的性能和失配问题,在此基础上设计和实现了一个对准引擎,并应用于智能英语口语训练平台的内容制作和语音评分,主要工作和创新点包括:1.提出一种基于模糊逻辑的多特征音频分类算法。该算法将语音似然度(speech likelihood)的概念和模糊逻辑理论引入到音频分类的研究中,综合考虑音频片段的多维特征,利用模糊逻辑推理系统标识其中的语音部分。实验表明,该方法可显著改善分类性能。2.提出一种改进的基于扩展匹配网络的容错对准算法。该算法通过对匹配网络进行扩展,对局部的单词和短语级别的插入、删除和替换错误均可进行检测,有效地提高了传统的强制对准算法的准确性。3.提出一种适用于大量连续语料和非完全匹配语料的对准算法。该算法将大规模文本语音的对准问题转化为一个多阶段决策过程的最优化问题,进而应用动态规划思想进行求解,以解决大量连续语料在文本语音匹配过程中存在的失配问题。实验表明,结合相应的纠错和剪枝策略,该算法的匹配准确性和鲁棒性均得到大幅提高。4.在上述算法研究的基础上,结合自然语言处理技术和语音评分技术,设计并实现了一个适用于大量连续语料和不完全匹配语料的对准引擎。该引擎已应用于互动英语教学系统的内容制作和计算机辅助的口语评分,由该引擎提供支持的包括TALKPALTM语音评价系统等在内的多个e-Learning教育平台已投入使用,并获得了来自南美、欧洲、亚洲等地区的用户的良好反馈。