论文部分内容阅读
随着计算机技术的发展,计算机辅助教学已成为现代教育技术在教育领域运用的一个重要方面。越来越多的学习软件已经在帮助人们学习外语。计算机丰富的图形、图像、声音处理功能有力促进了人们的语言学习效果。但是,目前很多计算机辅助语言学习软件都主要关注语言的文字应用能力(即读和写)和语音理解能力(即听力)的训练,相对而言,却很少关注语言的口头表达能力(即说的能力)的训练。口语学习主要表现在发音的学习上。而语音技术(尤其是语音识别技术)的不断成熟则为辅助学习者发音的学习提供了可能。广阔的语言学习市场正吸引着众多的开发商投入到应用语音技术/语音识别技术研制语言教学产品中来,使之成为近年来的一个研究热点。
该项研究涉及语音信号处理、模式识别、概率论和信息论、发音机理和听觉机理、人工智能等。本论文仅对英语发音学习系统中最关键的发音评分方法着手进行研究,从定义评分所需的特征参数开始,到端点检测,以及声学模型的训练、识别等问题,分别从主观和客观两个方面对基于语音特征模式匹配的英语发音评分方法和基于统计声学模型的英语发音评分方法进行了应用研究。
基于语音特征模式匹配的英语发音评分,这种评分方式存在一个标准答案,亦即存在一个标准语音,而测试的语音则要越像此标准语音越好,越像者分数将会越高;这部分所运用到的技术,包含特征参数的提取、模式匹配方法的设计以及评分机制的建立等,其中特征参数我们采用梅尔倒频谱参数。在评分方面,我们使用“动态时间规正”(DTW)来比较特征间的相似程度。
基于统计声学模型的英语发音评分方法主要是提供另一种语音评分的方式,以预先训练好的声学模型当成标准答案,通过语音识别技术,找出测试语音跟模型间的差异程度,并配合评分机制给予评分。此部分包含许多目前语音识别常运用到的技术,如在语音识别方面包含了隐马尔可夫模型、维特比算法等。