论文部分内容阅读
语音是人类最自然、最方便的交流工具。在现场交流中,它传播速度快,可以在黑暗中便捷的传播,是图片、文字或者按钮等其他视觉、触觉信息无法替代的工具。随着计算机技术的发展,和计算机进行语言交流,使之理解人类语言成为人们的梦想和追求,而实现它的首要前提是使机器能够识别人类语言,即语音识别。语音识别技术已取得巨大成就,形成了隐马尔可夫模型(HMM)等有效识别技术,但语音识别仍存在着一系列问题亟待解决与改进,如对环境和说话人的自适应性、抗噪声干扰性、声音模型和语言模型的完善化、训练工作量和识别速度的优化等。本文以提高语音识别对环境的适应性及优化识别算法为主要目的,基于现代信号处理理论提出了一些新算法和新方案。主要内容和创新性成果如下:1.分析了语音识别技术的现状和现有理论,并指出存在的不足。2.为了降低语音信号特征参数求解算法的复杂性,针对基音周期,本文提出了利用变长短时自相关函数和变长短时平均幅度差函数计算。这些方法通过降低加、乘法计算次数来减少计算量,原理上也体现了数学中滑动平均的思想。仿真实验结果表明,与原有的短时自相关和短时平均幅度差函数方法比较,新算法在估计准确率相同的情况下,可节省50%的计算时间,大大提高了算法的效率。3.针对线谱频率参数,本文分析了求解原理和计算过程,提出先求的根来确定参数的所在区间,然后再利用二分法进一步迭代缩小区间的新算法,相较于固定步长的算法,迭代次数要少很多。仿真实验及分析表明,新算法与其他三种传统算法相比,各种运算次数明显减少,乘法运输量仅为其他算法的13%~58%,且更加易于工程实现。4.语音端点的检测是语音识别的一个重要组成部分。传统的基于能量或过零率等特征的语音端点检测,在强噪声环境下,往往不能达到理想效果。实践表明直接通过人眼对语音波形图或频谱图进行端点检测往往比使用传统的自动检测方法更好,所以用图形处理替代人眼识别可得到一种新的端点检测方法,实验表明该方法效果良好。5.针对HMM方法的训练经常趋于局部优化的缺点,提出采用禁止搜索算法进行HMM识别的全局优化。利用禁止搜索算法的短期记忆、广义启发的全局搜索特点,使HMM模型参数达到全局优化,论文给出了禁止搜索算法作用于HMM的详细步骤,统计仿真实验结果表明,TS-HMM能更好的达到全局最优。