基于HMM的语音标引系统开发

来源 :上海大学 | 被引量 : 0次 | 上传用户:birdobird
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类重要的、有效的和常用的通信形式,这就很容易让人想到能否用自然语言代替传统的人机交流方式如键盘、鼠标等。随着现代科学和计算机技术、模式识别和信号处理技术的发展,使得能满足各种需要的语音识别系统的实现成为可能。本文开发一个实用的语音识别标引系统,以解决电视台媒体内容管理中资料的录入问题。 本文首先阐述了语音的端点检测,给出了常用时域特征及系统所采用的相关法检测,提出了基于动态始端的连续语音端点检测方法。在特征提取上,采用了美尔倒谱作为特征参数,给出了系统的频带划分,并对提高语音动态特性的能力做了分析。接着详细地论述了在语音识别建模中广泛采用的隐马尔可夫模型的理论和建模方法,模型的三个主要问题及连续隐马尔可夫模型原理和隐马尔可夫模型的种类,并对多元混合高斯模型的逼近能力做了仿真。 在理论的基础上,阐述了本系统的训练和识别算法。系统采用了分段K均值训练算法,给出了初值的选取方法,K均值算法及其聚类效果,比较了不同初值对其影响,对分段k均值的似然重估算法做了仿真,并对算法中产生的空组问题提出了解决方案。针对本特定系统,提出了状态级的共享训练算法。在识别上,首先给出了识别的语言模型,分析了分层构筑算法和帧同步viterbi算法,将模型的段长概率用做识别的后处理并提出了惩罚性计算和余弦函数加权,使段长概率真正的反应了其段长特性,提高了识别率。为了实现本系统的实时响应,一方面简化了对连续隐马尔可夫模型的高斯观察概率的计算,避免了指数和对数的运算,另一方面提出了以连续双缓冲为结构,高斯概率首先计算的实时计算方法,借助Windows低层音频技术实现了语音的输入和识别同时进行,使系统达到了实用的要求。在对非语音的据识上也给出了自己的方法。 最后,给出了标引系统的具体实现。以客户机服务器模式为架构,系统采用了Windows低层音频输入技术、用于数据存储和传输的XML语言及其与高级语言接口DOM技术和数据库连接技术。在具体的训练和识别上,给出了具体的参数设置、空间分配、软件结构和实现过程。为了方便标引人员使用,系统拥有友好的训练和标引界面。系统在给定的引导文件下工作,实验结果证明,系统具有很好的性能。
其他文献
本文立足于城镇化的理论和实际总结,运用宏观分析与实证研究的方法,对城镇化理论进行分析总结,并基于中国属于发展中国家的实情,对发展中国家城镇化发展进行共性分析,并以河北省
本论文研究了发电机组非电量检测中的抗干扰问题,着重阐述了在信号采集和处理过程中抗干扰方面的软件和硬件实现。以温度量的采集为例,针对国电南京自动化研究院自动控制所制造的SJ-40C微机温度巡检/保护装置进行改进性的研究和开发,通过分析和试验,对装置硬件部分做了较大的改进,提出了一套新的解决方案。本文对提高电厂环境里发电机组非电量检测中装置的抗干扰性能有着一定的借鉴作用。 本论文主要研究内容有:
随着以太网技术的不断发展与成熟,TCP/IP协议的应用日益广泛.凭借其在快速性、开放性和兼容性诸方面的优势,以太网在现场控制及其他相关领域的应用有着其他通用总线无与伦比
论文简要介绍了电子鼻气体防伪系统的构成,介绍了电子鼻系统的基本原理,指出了电子鼻系统的理论基础是模式识别理论.电子鼻—气体防伪系统实现中的难点问题在于对于气体模式
随着数字信号处理技术、集成电路设计与制造技术的快速发展,语音识别的应用已受到业界和用户日益广泛的关注,语音识别SOC也随之应运而生。本文重点研究孤立词汇语音识别IP软
倒立摆属于多变量、快速、非线性和绝对不稳定系统,可以用其检验各种操作系统与控制算法对不稳定、非线性和快速性系统的处理能力,它在控制科学与工程等相关领域得到了广泛的应
耗散控制在非线性系统稳定研究过程中起了重要的作用, H_∞控制和无源控制都是耗散控制的特例。而机器人系统是一个典型的非线性系统,因此耗散控制理论可以完全适用于机器人
本论文主要介绍综合采用先进的电化学气体传感器技术,全球移动通信系统(GPRS),计算机技术和现代微电子技术等先进技术组成的一种可靠性高、多功能、使用方便、隐藏性好的分布
  本文将网格技术与空间信息处理技术结合,研究三维城市空间信息智能处理一体化技术体系。论文系统地论述了三维城市空间信息网格服务的理论与方法。主要成果与创新点如下: 
现代企业制造系统是现代机械制造、计算机科学和管理工程的综合应用,技术复杂,投资巨大,采用建造实体系统进行研究显然是不合算的,风险极大。因此它的研究开发、规划设计、运