模糊语音的双模态抗噪特征提取研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:fan20090603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术在人工智能的推动下再一次迎来发展的热潮。人们迫切的希望在实际的生活当中,也能与智能机器有更好的交流,让机器听懂人们的语言,按照人们发布的指令正确的完成应答操作。但当下,语音识别技术走出实验室进入生活仍存在一些技术性难题。在没有噪声或者噪声很小的环境中,语音识别系统识别效果良好,会有较高的识别率;但当在背景噪声很大,或者识别环境更复杂的情况下,识别系统的性能就不如实验室安静环境下理想。所以研究复杂环境下语音识别系统的强健抗噪性仍具有重要的意义。汉语普通话当中存在发音机理上相近、听觉上容易混淆并且容易被智能机器识别错误的模糊语音,而语音识别系统的性能很大程度上取决于语音特征参数的选取,所以本文从发音机理和听觉特性两个方面入手,对模糊语音的抗噪特征进行分析研究。1、在课题组的帮助下,利用德国生产的三维电磁发音仪采集发音器官的运动轨迹信息,同时使用专业录音设备,同步录制语音的音频信号,建立了满足研究要求的双模态模糊语音数据集,其中包括语音的音频信号和发音器官运动信号两种模态。以此数据集作为实验样本进行特征提取研究。2、介绍了实验所选的语音识别系统,描述了识别系统操作流程框架,并且重点分析了其中的特征提取和识别分类网络两个关键步骤。接着介绍了四种韵律特征的提取方法,主要包括包括基音频率、短时平均能量、短时平均幅度以及共振峰等。对比分析了包括人工神经网络(Artificial Neural Network,ANN)、随机森林(Random Forest,RF)以及支持向量机(Support Vector Machine,SVM)在内的三种分类识别网络,以及它们各自适用的情况和优缺点,根据自建数据集数据量的大小,决定选用支持向量机作为识别系统的分类网络。3、从声学信息出发,以耳蜗倒谱特征(Cochlear Filter Cepstral Coefficients,CFCC)为基础,结合不同的非线性变换对CFCC进行改进。由于语音信号是一种非平稳时变信号,对比了短时傅里叶变换和小波变换处理非平稳信号的方法,引入S变换来对语音信号进行时频转换,同时借鉴性的运用奇异值分解(SVD)来抑制带宽随机噪声,提取新的声学特征参数(S-Transformation cepstrum features of cochlear filter,ST-CFCC)4、从语音的发音机理出发,分析语音的发音器官运动轨迹,选取舌部以及下颌来提取发音运动特征。同时提出发音倒谱系数(Articulatory Cepstral Coefficients,ACCs)也作为运动特征,它是时间定位发音信号的倒谱系数。对比分析不同运动特征的可行性及分类结果。5、从特征层出发进行声学特征和运动学特征的双模态特征融合研究。联合使用核主成分分析以及线性典型相关分析来完成模态内特征降维和跨模态级的特征融合,对融合后的特征向量设计对比实验,进一步验证了双模态融合特征相较于单模态特征的优势以及融合方法的有效性,提高了语音识别系统的性能。
其他文献
物联网(Internet of Things,IoT)技术已经广泛应用在我们的生活当中,如智慧物流、智能医疗、智慧农业等。然而,目前的物联网通信技术都使用有源射频单元,具有很高的功耗。反向散射技术的出现解决了高能耗的问题,随着频谱资源竞争压力的增加,提高反向散射技术的频谱利用率成为亟待解决的问题。环境反向散射通信(Ambient Backscatter Communication,AmBC)技术的
目前,我国已经全面进入第五代(the fifth generation,5G)移动通信技术商用时代,5G技术广连接的特性将推动物联网(Internet of Things,Io T)产业进一步向前发展。传统的物联网设备多使用有源射频单元,当接入网络的设备较多时,其总能耗不容小觑,且有源设备通常体积较大。反向散射通信方式被认为是推动物联网产业进一步发展的新机遇,反向散射通信系统以其终端无源、体积小的
大脑本质上是一个非线性复杂的系统,其神经信号内在特征的变化可以反映大脑结构与功能的异常。在神经信号特性中,复杂度研究一直是研究者们关注的焦点。熵作为一种常用的复杂度分析方法,能够有效刻画神经信号的无序性和混乱程度,并且随着技术的发展,多尺度熵在神经信号分析领域也得到了广泛的应用,其被用来分析非平稳信号时表现出了显著的优势。近些年,大量的研究人员利用熵指标分析大脑静息态功能性磁共振成像(Restin
光电子器件是光通信网络的基础,光学谐振腔作为典型光学结构,广泛应用于光学滤波器、缓存器、光开关等器件中。品质因子Q值是衡量光学谐振腔性能的一个重要参数,代表谐振腔储存光能量的能力,追求更高的Q值是谐振腔研究的永恒主题之一。除了性能之外,光学谐振腔样式众多,各有其结构特点,所以针对不同应用场景,探索更加切合实际需求的光学谐振腔,不仅能拓宽光学谐振腔的应用领域,也能发挥不同谐振腔各自的优势特点。基于共
脑老化是一个复杂的、不可避免的生物学过程,对大脑成熟和衰老生长曲线的研究可以探索人脑老化机制,有助于对老年性认知疾病的早期干预。阿尔茨海默症(Alzheimer’s Disease,AD)是一种起病隐匿的且与认知能力相关的老年性神经退行疾病,从早期轻度认知损害(Early Mild Cognitive Impairment,EMCI)到晚期轻度认知损害(Later Mild Cognitive I
进入21世纪以来,基于位置信息的服务迅速发展,全球卫星导航系统(Global Navigation Satellite System,GNSS)在人们的生活中变得越来越无可替代。全球卫星导航系统定位方式主要有标准单点定位、标准差分定位、精密单点定位(Precise Point Positioning,PPP)和载波差分定位(Real-time kinematic,RTK)四种。其中,精密单点定位因
近几年来,随着科学技术的磅礴发展,出现了数据爆炸的现象,数据如何进行存储也就成为了比较重要的研究课题。为了存储更多的数据,并且为用户减少存储开销,于是云环境存储应运而生,越来越多的用户选择将数据存储在云环境中,但是云存储的出现也面临着数据不安全的问题,需要用户对数据加密处理后再上传到云环境中。云存储指的是数据所有者将数据存放在网络中的多台虚拟服务器中,它们由第三方服务商来管理,而不是本地计算机中,
入侵探测技术被广泛用于区域防护以保障人身和公共财产安全。现有的入侵探测技术包括激光雷达、光学/热红外摄像机、电子围栏、振动电缆传感器、光纤传感器和入侵探测雷达。除入侵探测雷达外,其它入侵探测技术普遍存在隐蔽性差、易受环境温度、可见度以及嘈杂振动影响的缺陷。入侵探测雷达采用泄漏电缆或者常规天线发射探测信号和接收回波信号,从而构建人眼不见的电磁防护区域,弥补了上述缺陷。但是受限于发射信号的固有特性,入
激光雷达作为一种主动式扫描探测技术,可以快速获取周边环境的信息。随着激光雷达在机器人、无人驾驶等领域的广泛应用,国内外激光雷达市场迅速发展。鉴于目前市场上成熟的激光雷达产品存在价格昂贵、国外技术垄断和控制算法不开源等问题,本课题开展了激光雷达的设计研究工作。本文以移动机器人室内环境感知为背景,结合车载环境和实际应用需求,使用课题组自行研制的激光测距模块,设计了一种二维激光雷达扫描系统。设计的二维激
基于超宽带雷达的非接触式生命体征监测系统是将雷达技术应用于生物监测领域,其目的是通过非接触方式获取目标人体的呼吸和心跳频率。在新冠肺炎全球蔓延的大背景下,医院各方都在寻求更为有效与安全的监测手段,而基于超宽带雷达的非接触式生命体征监测系统,在保护病人生命安全的同时,也为前线医疗人员提供安全保障,集合了高效、安全的监测特征,不仅应用于防疫医疗监测,也适用于慢性病患者或老人居家呼吸心跳等健康体征监测,