基于语音识别基元声学整体结构特征的识别模型研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:mj5211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别的研究目标是实现“语音-文字”的正确转换。基于Bayes原理的语音识别模型涉及声学层和语言层知识的适当表示和运用。多年的研究表明,根据具体研究对象的特点确定识别基元、进行准确的端点检测、提取能够更多的表现不同识别基元相互之间声学差异、对多种干扰因素有较强免疫力的特征参数、在此基础上建立具有最小重叠空间分布的识别模型对于提高语音识别率具有重要的意义。本文主要致力于自然和电话语音的端点检测、汉语音节整体结构声学识别模型的构造、低信噪比下稳健的英语数字识别模型设计与性能分析,并通过反复的实验证明新的算法和模型是可行有效的,部分研究成果已经用于设备型号研制。 本文主要包括以下创新之处: (1)针对高信噪比汉语连续语音端点模糊问题,提出了基于汉字音节短时峰谷点能量的端点检测算法。该算法简单易用,检测准确度高。实验数据显示汉语音节端点的检测率达到96%以上。 (2)在分析了汉语连续语音的协同发音产生的弱化发音现象和时域端点检测算法的缺陷之后,设计了基于多子带谱特征的汉语端点检测算法。该算法利用语谱带上的分层信息精确捕捉相邻汉字音节的局部跳变时间点,可以检测到一般的检测算法极易疏漏的弱化音节的端点。该算法的平均检测率大于97%。 (3)根据电话信道数字语音信噪比低和噪音特性随机多变的特点,设计了适合窄带电话的帧时域能量与主频带能量(300~1500Hz)的混合脉冲检测模式,通过对脉冲序列的整形、滤除合并、位置微调确定数字端点。该算法突出的优点是适应的信噪比动态范围较宽,即使信噪比只有3.5dB,也能准确地检测到边缘时间点。 (4)在深入分析DTW和HMM模型的基础上,结合汉语语音结构特点,设计了一种新的基于汉字音节整体MFCC向量模型。该模型能够根据各个音节的持续时间动态地调整帧长,更加完整地表现了语音时频信息的演化过程。在同样的测试条件下,固定帧数比固定帧长的识别率提高3.0%以上。文中还分析了几个主要影响汉语识别率的参数:滤波器组数、语音帧数、MFCC向量维数、距离加权系数、中值滤波器阶数、输入滤波器带宽等,这些参数恰当地设置对于识别率有积
其他文献
目的探讨杀胚中药与米非司酮联合应用在异位妊娠中的效果。方法选择我院收治的异位妊娠患者80例作为研究对象,纳入对象自愿接受研究,且临床资料完整,按照随机数表法分组,各自
根据库鄯输油管道实际运行的状况,总结分析了该管道自投产至今所采用的各项节能降耗措施,提出了增加自流装车流程、停止部分罐区伴热以及保持主泵低转速运行等节能措施,并对
老子是世界历史上100位最有影响的文化名人之一,其著作《道德经》构建的生命哲学体系具有世界性的影响。关于生命的存在方式,老子主张"无为""、不争""、虚静"。重新审视老子的"无为"
低老坏”是指低标准、老毛病、坏作风。企业在推进安全化、标准化、精细化、一体化管理工作中,取得了一定成绩,然而,在安全生产经营过程中,低标准、老毛病、坏作风等“低老坏”现
目的:探讨母乳喂养中常见的乳房问题,总结护理措施,以进一步提升母乳喂养成功率。方法选取2013年2月—2014年2月在我院分娩的产妇120例,均在母乳喂养中出现乳房问题,回顾性分析其
纳米晶陶瓷既拥有传统陶瓷耐高温、耐腐蚀、强度高、硬度大等优点,又有纳米材料的高韧度、低温超塑性等特点,因而成为材料的一个发展热点。介绍了纳米晶陶瓷基于“压力压制素
齐泽克根据拉康的幻象理论重构的"作为幻象的意识形态"概念,是继阿尔都塞之后,在马克思主义意识形态理论基础上做出的又一重要推进。他认为,在其基本层面上,意识形态不是掩饰
文章选取某高校理、工、文、管四个学科2011级本科毕业生为样本,在课程成绩分层基础上,从借阅册数、文献类别、借阅时间、利用周期四个维度,开展本科生课程成绩与借阅行为学
于泉洲,1948年8月生于辽宁省桓仁县,辽宁工程技术大学客座教授,为著名书法家姚俊卿、大康入室弟子.现为辽宁省书法协会、作家协会、历史学会会员,诗词学会理事、中国楹联学会
近年来,随着内镜外科的发展,电视胸腔镜(VATS)技术逐渐应用到胸外科领域,电视胸腔镜下手术治疗自发性气胸被越来越多的患者所接受。自发性气胸源于肺大泡破裂,其发病率为4—9人/10万