论文部分内容阅读
该文对汉语非特定人连续语音识别的相关技术作了深入、系统的研究,并设计了面向任务的汉语非特定人连续语音识别系统,主要包括以下内容.(1)从系统设计的角度提出了语音识别系统的统一框架--统一层次模型,具有推进语音识别技术标准化的重要意义.(2)该文系统分析了音素建模对汉语语音识别的重要性,从语音识别的角度,结合现有国际音标体系、传统拼音方案等语音学知识,独立提出了包括50个单元的汉语音素扩展集合,建立了基于音素模型的汉语连续语音识别系统.(3)为了进一步提高音素模型对连续语音流的描述能力,该文对基于HMM的模型细化与共享技术作了系统研究.(4)对设计面向任务的连续语音识别系统中的关键问题(搜索策略、鲁棒性识别、端点检测、建模单元选择等)作了研究,比较了统计语言模型、规则语法模型对任务的描述能力和对语音识别搜索的不同约束能力,论述并实验验证了音节困惑度是衡量汉语语音识别任务难度的合理指标.(5)在语音识别新理论的探索方面,该文研究了统计学习理论在语音识别中的应用,尝试将支持向量机应用于汉语的非特定人数字识别,取得了优于HMM的识别性能,尤其显示出支持向量机在小样本学习下的优势,得到了一系列有价值的结论,并对支持向量机进一步应用于连续语音识别提出了展望.