论文部分内容阅读
语音是人类重要的、有效的和常用的通信形式,这就很容易让人想到能否用自然语言代替传统的人机交流方式如键盘、鼠标等。随着现代科学和计算机技术、模式识别和信号处理技术的发展,使得能满足各种需要的语音识别系统的实现成为可能。本文开发一个实用的语音识别标引系统,以解决电视台媒体内容管理中资料的录入问题。
本文首先阐述了语音的端点检测,给出了常用时域特征及系统所采用的相关法检测,提出了基于动态始端的连续语音端点检测方法。在特征提取上,采用了美尔倒谱作为特征参数,给出了系统的频带划分,并对提高语音动态特性的能力做了分析。接着详细地论述了在语音识别建模中广泛采用的隐马尔可夫模型的理论和建模方法,模型的三个主要问题及连续隐马尔可夫模型原理和隐马尔可夫模型的种类,并对多元混合高斯模型的逼近能力做了仿真。
在理论的基础上,阐述了本系统的训练和识别算法。系统采用了分段K均值训练算法,给出了初值的选取方法,K均值算法及其聚类效果,比较了不同初值对其影响,对分段k均值的似然重估算法做了仿真,并对算法中产生的空组问题提出了解决方案。针对本特定系统,提出了状态级的共享训练算法。在识别上,首先给出了识别的语言模型,分析了分层构筑算法和帧同步viterbi算法,将模型的段长概率用做识别的后处理并提出了惩罚性计算和余弦函数加权,使段长概率真正的反应了其段长特性,提高了识别率。为了实现本系统的实时响应,一方面简化了对连续隐马尔可夫模型的高斯观察概率的计算,避免了指数和对数的运算,另一方面提出了以连续双缓冲为结构,高斯概率首先计算的实时计算方法,借助Windows低层音频技术实现了语音的输入和识别同时进行,使系统达到了实用的要求。在对非语音的据识上也给出了自己的方法。
最后,给出了标引系统的具体实现。以客户机服务器模式为架构,系统采用了Windows低层音频输入技术、用于数据存储和传输的XML语言及其与高级语言接口DOM技术和数据库连接技术。在具体的训练和识别上,给出了具体的参数设置、空间分配、软件结构和实现过程。为了方便标引人员使用,系统拥有友好的训练和标引界面。系统在给定的引导文件下工作,实验结果证明,系统具有很好的性能。