【摘 要】
:
经过几十年发展,语音识别技术正在走向实用.虽然在不同应用中,具体识别系统的构成有所不同,但总的来说一个完整的语音识别系统应包含前端预处理、声学模型、语言模型和搜索引
论文部分内容阅读
经过几十年发展,语音识别技术正在走向实用.虽然在不同应用中,具体识别系统的构成有所不同,但总的来说一个完整的语音识别系统应包含前端预处理、声学模型、语言模型和搜索引擎四个部分.其中的语言模型除了在孤立词识别系统中可以省略外,在多数系统中都不可缺少.并且,在语音识别系统向具体应用领域转化的过程中,语言模型非常重要,它能利用特定领域的先验知识,有效指导识别过程.在限定领域的应用中,特别是口语识别中,我们经常遇到语料不充分的现象,或者在短时间内难以收集到足够的语料,这给训练语言模型带来极大困难.平滑算法的改进只能在一定程度上弥补数据稀疏性带来的问题.在尝试了以FSN为代表的基于规则的语言模型和基于类的n元文法模型后,我们提出了基于关键信息的建模方法,在应用中取得了较好的效果.该文涉及的工作主要有:①在基于规则的语言建模方面,我们采用FSN的方法来描述语法,实现了基于FSN的语音识别引擎,在语音信息查询应用中采用FSN语言模型取得了较好的效果.②在预处理、分词、平滑算法等方面,对现有的n元文法模型的训练过程进行改善,提出了基于裁减门限的Katz改进平滑算法.③在基于类的n元文法语言模块和英、汉双语语言模型方面做了一些尝试.④提出基于关键信息的语言建模方法,缓解了训练数据稀疏给语言模型训练造成的影响,能有效识别用户话语中的关键信息,同时过滤掉无用信息.在此基础上,实现了实时识别系统,在面向奥运的语音信息查询系统项目中取得了很好的效果.⑤为"基于语音的网站导航系数"设计基于汉字的n元文法模型.总之,文本介绍了作者在限定领域口语识别背景下的语言建模方面的一些工作.
其他文献
该文以抚钢精轧模具钢台车式退火炉的自动控制系统设计为背景,在采用国外先进集散控制软、硬件产品的基础上,完成了退火炉自动控制系统的结构、功能设计和现场调试.该控制系
本文第一章对遗传算法及其基本理论进行了简要的回顾,然后在第二章里对并行遗传算法从其分类、工作机理等方面进行了介绍。本文第三章里对有关的MPI并行编程技术进行了介绍。
熔融碳酸盐燃料电池(MCFC)是一种洁净、高效的新型发电装置,适宜作大容量分布式电厂的供电装备.但是要真正实现MCFC发电系统的商业化,除了在材料和工艺等方面进行改进以外,还
数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。目前数据挖掘逐渐发展成为一个多学科领域,涉及到多方
近十几年来,混沌同步与混沌控制(包括控制系统中的混沌)的研究引起了许多科学家和工程师的极大兴趣.该研究报告包括以下几个部分:在第一章中,对应用控制理论处理混沌同步与混
结合当前成熟的网络及通信技术,提出了B/S架构的网上仿真系统.以宝钢1420连续退火生产线张力仿真为背景,兼顾成本、安全性、方便性和可扩展性,设计开发了基于Linux环境下网络
本文针对Brushlet变换的图像增强算法做了大量的实验,首先把增强算法的理论付诸代码实现,为了做比较,本文采用了数种小波包做图像增强,并选择了最合适的小波包作为小波包变换增强
该文结合科研项目"纺织企业信息库的动态刷新和自动搜索分析系统",研究并实现了基于特征分块的面向专业领域的网络信息搜索系统.文章首先对网络信息搜索的发展与研究现状进行
协同仿真(Collaborative Simulation)是一种处于不同地点、基于不同计算机平台的仿真人员采用不同建模方法建立混合异构层次化仿真模型,并在分布式环境上进行仿真运行、表现
本论文围绕智能故障诊断机器学习这一关键问题,运用主成分分析方法,利用距离可分性准则,降低维数提取汽轮发电机组故障信息的主要特征。实例证明,在信息量损失较小的情况下,该方法可以提炼故障信息而不影响分析结果。支持向量机(SVM)方法是专门针对小样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值。两类支持向量机用于模式识别具有最优的推广能力,而对于常见的多类识别问题,则需要构