自动语音识别的声学语音学模型研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:alivealive
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对语音识别声学语音模型的统计建模方法进行研究.其主要内容有以下几个部分:第一部分在研究了CDHMM的两种最大似然训练算法--基于标准最大似然判据的Baum-Welch前后向重估算法和基于Viterbi最大似然判据的分段k-均值算法的基础上,将模糊集思想引入到CDHMM的最大似然参数估计中,提出了基于Viterbi判据的分段模糊c-均值CDHMM最大似然训练算法,作为普通分段k-均值算法的改进;第二部分在研究了HMM的最大似然(非鉴别)及鉴别训练算法的基础上,结合MLP的鉴别分类能力和HMM的时间序列建模能力,提出了一种新的用于语音识别的HMM/MLP混合网络,它利用所有语音基元HMM各状态对应的部分Viterbi似然值作为MLP的输入矢量,通过有导师的MLP训练,以克服HMM最大似然训练的模型正确性假设,提高了模型的鉴别能力;第三部分在指出了基本的HMM模型本身所隐含的三个不合理假设的基础上,详细讨论了基于语音段的STM建模方法,并结合STM特性及汉语语音特色,对汉语连续语音识别基元的选取进行了研究.第四部分在随机轨迹模型和神经网络技术基础上,利用STM的强时间序列建模能力和保存语音轨迹信息的优越性,并以MLP作为语音特征序列预测器,利用语音模式中的时间相关性作为识别线索,提出了神经网络预测随机轨迹混合模型语音识别方法,其继承和保留了基于语音段(或语音轨迹)建模思想的主要优越性,并从一定程度上克服了STM的一些弱点.
其他文献
以近红外光谱技术为基础的数字化无损质量评价技术因其具有无损、快速、绿色环保及易于数字化等特点,被国际农业分析界认为具有“解决全球农业分析的潜力”的技术,是目前双低油
该文首先介绍了等离子体显示器的工作原理以及结构特点,详细分析了AC型PDP所采用的三电极表面放电结构和寻址/显示分离型子场技术.FPGA能高效、灵活地实现各种数字电路,该文
该文就静态图象压缩编码与传输进行了两方面的探讨.一方面,提出了基于JPEG的静态图象编码传输系统的设计方案.系统的核心--编、解码部分基本上采用JPEG标准,为了在高压缩比时
期刊
学位
期刊
计算机辅助教学CAI(Computer Assisted Instruction)是现代化教学手段发展的必然趋势,而建立一个实用而廉价的网络视频传输平台则是推广普及的基础.注意到这一技术和需求的
心脏病是一种常见的疾病,其具有隐蔽性、突发性、发病危险性等特点因此对心脏病的及时诊断对患者极为重要。常规的心电图在短期内捕捉到早期心脏疾病患者的一些异常心电信息是
我国煤炭资源丰富,储存量大且分布广,国民经济的发展对煤炭的需求量日益增长。但是,近年来各种矿难事故频发,如:瓦斯气体爆炸、火灾、透水事故等。如何确保井下人员的安全成为一
容县绿荫中学自主创新的“两全”教学模式就是全程抓、抓全员的教学活动程序,它包括“自主学习→全程合作→全员提高→自我评价”四个环节,这个模式的核心是“全程合作、全员提