噪声环境下连续语音识别技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：dk_wow

【摘要】

：

【作者】

：

王宇琛

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2019年01期

【关键词】

：

语音识别连续语音切分隐马尔科夫模型 N元文法模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人工智能是目前最热门的科学研究领域之一,语音识别是人工智能的一个重要研究方向。随着科学技术的发展,连续语音识别技术已经取得了很大的进展。目前的连续语音识别系统,在实验室环境下,对纯净语音已达到很高的识别率,但在噪声环境下,识别率明显下降。在连续语音识别系统的实际应用中,噪声几乎是不可避免的,因此针对噪声环境下的连续语音识别技术研究显得尤为重要。本文从语音识别技术的理论基础出发,介绍了连续语音识别系统的各个组成部分,包括语音信号预处理、语音信号特征分析、连续语音切分、声学模型和语言模型等。最终实现了一个噪声环境下的中等词汇量汉语连续语音识别系统,并测试了该系统的性能。本文的主要研究内容如下:（1）语音信号特征分析。本文介绍了语音信号的预处理技术,包括以谱减法为主的语音增强技术,然后分析了语音信号在时域、频域和倒谱域的特征,提取了多种特征参数,着重研究了频域的语谱图特征和倒谱域的基音周期轨迹特征。（2）连续语音切分技术。连续语音的切分包含两个步骤,一是端点检测,二是语音段基元的切分。本文研究了基于时域特征参数的多阈值端点检测技术,然后在分析基音周期轨迹和语谱图的基础上,研究了一种具有一定抗噪性的汉语连续语音音节切分方法,实验表明该方法具有较高的准确率。（3）语音识别模型分析。连续语音识别系统分为两层,声学模型层和语言模型层,声学模型用于将语音信号识别为对应的音,本文研究了三种声学模型,分别是矢量量化模型、离散隐马尔科夫模型和连续隐马尔科夫模型,并通过实验对这三种模型的识别率和性能进行了对比分析,还研究了不同训练样本对连续隐马尔科夫模型识别率的影响。由于汉语广泛存在同音字现象,本文应用N元文法模型作为语言模型进行音-字的转换。最后,将声学模型与语言模型相结合,实现了一个完整的连续语音识别系统。

其他文献

音频驱动的舞蹈动作生成

音乐驱动的舞蹈生成作为计算机视觉和跨序列分析领域的重要研究内容,在虚拟现实、编舞、动画制作等各种生活场景中得到了广泛的应用。目前,现有的舞蹈生成方法要么只是专注于合成人体动作,而忽略了音乐和视频之间的联系;要么没有发现音乐和视频之间的强相关性。本文提出了一种基于音乐/音频序列的舞蹈动作合成模型。并且深入研究了舞蹈生成的一般过程,在此基础上引入了序列对序列（Seq2Seq）的概念。并根据舞蹈产生的特

学位

音乐舞蹈运动音乐驱动的舞蹈合成音乐驱动的舞蹈合成评价

基于弹载SAR成像典型地面目标检测与识别方法研究

利用弹载SAR获取的高分辨率实时图像,不仅可以修正惯导误差（INS）,控制导弹精确命中目标,还可进一步进行图像检测与识别,对于后续目标定位甚至跟踪具有巨大的应用价值。本文针对导弹平飞段的运动特点,对弹载大斜视成像以及SAR图像目标检测与识别等关键技术展开分析。主要包括:（1）研究了弹载SAR平飞段大斜视成像问题。针对弹载大斜视距离向与方位向耦合严重,传统的成像算法容易造成图像散焦的问题,采用基于时

学位

弹载SAR大斜视成像强散射点特征目标检测目标识别

基于主题和信息熵的文本零水印算法的研究与应用

随着网络技术的快速发展,电子文档逐渐取代传统纸质文档成为文本信息的主要载体,但同时其易复制、易篡改的特性也给电子文档的版权保护带来了巨大挑战。版权认证是一种判定载体版权归属的行为,而数字水印技术是目前最有效的版权认证方法之一。本文针对现有文本数字水印方案普遍存在的文本表征性不强、水印抗攻击性不高等问题,在对现有数字水印技术研究的基础上,结合自然语言文本水印技术,提出了基于主题和信息熵的文本零水印算

学位

版权保护文本零水印关键词抽取信息熵词语相似度

Ka波段弹载微带天线仿真与设计

无线电引信作为典型的近程探测系统,在现代战争中发挥着愈发重要的作用。为了应对不同的环境,对引信天线的要求也越来越高。由于微带天线具有剖面低,质量轻,结构简单以及易与载体共形的优点,它在弹载天线领域受到各国的青睐,被广泛使用。本文根据某具体项目对Ka波段侧前向辐射天线的需求,进行了收发共用微带单极子天线以及收发隔离微带单极子天线的仿真与设计。主要工作如下:基于微带天线和单极子天线的基本理论,结合了微

学位

微带天线微带单极子天线套筒天线前侧向辐射收发隔离

美日韩外汇市场发展与汇率市场化的经验及启示

在深化人民币汇率形成机制改革的基础上,要继续发展外汇市场,不断拓展外汇市场的深度和广度,增加交易主体、丰富交易品种、放宽交易限制,使外汇市场更多承担人民币汇率发现功能。20世纪70年代初布雷顿森林体系解体之后,固定汇率制度瓦解,主要发达国家及一些发展中国家渐次选择了浮动汇率制度,世界货币体制进入了牙买加体系。既然选择了浮动汇率制度,也就意味着汇率更多由市场来决定,那么首当其冲的一个问题就是汇

期刊

Ad Hoc网络拥塞控制性能分析与优化研究

Ad Hoc网络（自组织网络）是由一组无线节点或终端相互合作而形成的、无固定基础设施的、采用分布式管理的网络,是一种自创造、自组织和自管理网络。传统的TCP拥塞控制机制为有线网络设计,它把网络拥塞当成丢包或超时的唯一原因。但在Ad Hoc网络中丢包可能是由随机误码、路由重建与连接断开、链路层竞争失败等多种原因导致。目前,Ad Hoc网络的拥塞控制还没有统一稳定的方案。本文对Ad Hoc网络下的拥塞

学位

Ad Hoc网络拥塞控制TCP吞吐量NS2网络性能

高增益宽角度电扫描阵列天线的研究与应用

波束扫描天线是通过电信号改变阵中单元间的相位差来实现波束指向的改变,分为相控阵天线与频扫天线两种,其相比传统的机械波束扫描结构具有灵活性高,扫描速度快,精准度高等优点,在数字通信,雷达探测等等领域中应用更加广泛。本文结合科研项目,对频扫天线进行研究,并组成相控阵天线,实现低成本二维扫描的性能,天线论文的主要内容如下:1.波导缝隙二维相频扫天线阵列研究:基于对波导缝隙天线辐射原理、等效电路的理论分析

学位

电扫描阵列天线相频扫阵列低副瓣宽扫描角高增益

无人机探测雷达信号处理系统设计与实现

近年来,由于无人机违规飞行导致的安全事故频发,对无人机实施有效监控成为了亟待解决的问题。雷达因其全天时全天候、覆盖范围广、作用距离远、探测精度高等优点,成为了对无人机进行探测的首要选择。本文根据雷达信号处理系统的设计指标,开展了算法流程和硬件方案设计以及硬件设计等工作,工作内容主要有以下三个方面:（1）根据系统设计指标,设计了包含数字下变频、脉冲压缩、动目标检测、恒虚警检测等完整的算法流程;结合系

学位

无人机探测雷达雷达信号处理信号处理系统硬件设计

基于FPGA的太赫兹图像采集及存储系统设计

在军事国防和航空航天等领域对材料无损检测与危险物品检测等需求的牵引下,太赫兹成像的应用研究发展迅猛。然而受限制于太赫兹成像的组件成本和多维信号获取难度,太赫兹成像技术的实际应用面临较多挑战。现场可编程逻辑门阵列（FPGA）因其并行处理图像数据的特性,可应用于多维信号的采集;并且基于FPGA开发嵌入式太赫兹成像系统,可以提高成像系统的便携性与实用性。因此,本文针对太赫兹成像系统,研究并实现了一种基于

学位

太赫兹成像GigE VisionSATA3.0FPGA

频控阵MIMO雷达目标参数估计研究

目标参数估计是雷达系统应用的重要问题。MIMO（Multiple Input Multiple Output）雷达在发射端和接收端利用阵列天线结构,并通过发射多个正交波形可实现高分辨的目标参数估计,因此受到广泛关注,成为雷达系统设计和研究的热点。MIMO雷达本质上是传统相控阵雷达的一种推广,其利用波形分集以较少阵元实现等效的大规模虚拟阵列,从而提高目标方向估计的精度。然而相控阵雷达无法实现距离-方

学位

FDA-MIMO稀疏重构原子范数动目标张量平行因子

噪声环境下连续语音识别技术研究

与本文相关的学术论文