基于深度学习的语音信号处理研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:xiaogege0451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类最重要的交流工具,其具有便捷、高效和准确的特征。同时语音作为语言的声学表现形式在日常生活中占据着重要的地位。随着计算机和物联网等技术的不断发展,智能产品逐渐渗入到人们生活的方方面面,如何高效地进行人机交互成为学术界和工业界的研究热点。尤其是随着深度学习和人工智能的发展和流行,利用深度神经网络强大的表征能力和泛化性能来实现语音信号的处理成为了一种趋势。而且在AIOT的推动下,语音信号处理在智能家居、无人驾驶以及语音控制等领域展现了强大的实用性,因此对语音信号进行探索和研究具有重要的意义。本文围绕语音信号处理中的语音识别和声纹识别展开了一系列的研究,涉及的内容主要包括语音信号的时频分析和特征提取等预处理方法,构建实现语音识别和声纹识别的神经网络模型和研究提高模型性能的方法。本文的研究内容主要包括以下几个方面:1.研究语音信号的时频分析方法和特征的提取方法。语音信号是一种非平稳的时变信号,其包含了与文本相关的声学特征、与说话人相关的身份特征等信息。研究和分析语音中的这些特征对于模型的实现具有重要的意义。本文主要分析语音信号的时频特征并根据现有的特征提取方法分析其适用的范围,然后根据需求选择合适的特征提取方法。2.探索和研究语音识别的模型和方法。首先对现有的语音识别模型进行分析,然后根据语音识别任务等构建了序列-集合-序列的语音识别模型。同时针对样本类别不均衡的数据研究了提高模型识别准确率的训练方法。相比于图像数据,语音信号进行语音增强的难度较大,没有大量语音模型的积累无法实现语音信号的随意截断和组合。所以本文对于类别不均衡的情况提出了两种解决方案;首先数据预处理阶段利用增加噪声、语音信号平移以及增加语音信号增益的方法来增加语音数据的多样性,然后在模型的训练阶段提出了基于课程学习的模型训练方法,该方法能够有效地提高模型对类别较少的样本的特征提取和学习能力。3.研究和分析声纹识别相关的模型和方法。通过对说话人的声学特征和分类器的效果进行分析;提出并构建了用于说话人识别的神经网络模型。并且通过实验分析可知本文构建的模型能够实现说话人的区分性训练,提高了说话人识别的准确率。
其他文献
目的:近二十年来中国肺癌导致的死亡人数超过癌症总死亡人数的20%,且发病率及死亡率增长迅速。非小细胞肺癌患病人数约占肺癌患者的85%,虽然通过手术治疗能够切除病灶区,但后期仍存在较高的复发率,且预后不尽人意。科罗索酸是一种天然的五环三萜类化合物,在抗肿瘤方面具有非常广阔的应用前景。抗肿瘤药物具有诱导肿瘤细胞凋亡的多种途径,其中氧化应激产生的活性氧与肿瘤细胞凋亡存在密切关系,而科罗索酸作为一种有效抑
京山网球发展至今已有30多年,从最初的只有十个老干部参与的运动,发展成为拥有7万网球人口的网球特色城市,经历了传入、探索发展、快速发展等三个时期。网球文化建设是促进京
多波束测深系统是一种以声学传感器为主,多种辅助传感器集成使用的精密探测仪器,具有测量精度高、探测效率高、数字化与自动化等特点,适用于海洋地形地貌测绘、港口航道测量、水中目标精细探测等海上工程。显控软件是多波束测深系统的核心组成之一,以此为研究背景,在重点研发计划仪器专项(2018YFF01013401)的支持下,本文设计并实现了基于Qt的多波束测深系统显控软件。主要内容包含以下几个方面:首先,分析
多输入多输出(Multiple Input Multiple Output,MIMO)技术一直是通信领域的研究热点。特别是随着4G技术的商用和5G技术商业化的逐渐推进,Massive-MIMO技术被广泛地使用。理论上来说,接收机和发射机配备的天线越多,传播信道可以提供的自由度越大,在数据速率或链路可靠性方面的性能就更好,同时能够提高频谱利用率、功率效率以及通信的稳定性和可靠性。为了获得Massiv
近年来,随着我国铁路货运规模的不断扩大,其运营安全问题逐渐引起了广泛关注。铁路货车作为铁路货运的运输载体和核心,其安全隐患极易进一步扩大为严重的安全事故。而货车轮对轴承作为铁路货车的关键部件之一,其服役性能的好坏直接影响着铁路货车的运行安全。因此,深入研究铁路货车轮对轴承的故障诊断技术,对提高铁路货车运行安全保障水平和科学运营维护有着重大意义。本文以铁路货车轮对轴承为研究对象,针对不同应用场景下货
赊买赊销逐渐成为企业交易时普遍使用的方式,但企业在甄别客户信用时,维持客户关系与提出真实客观质疑互为掣肘,因此企业进行信用交易时商业信用供给风险逐渐暴露出来。商业信用供给的直接风险来源于客户违约造成企业的坏账,间接风险来源于两个方面,一是对企业资金的占用,二是造成潜在的融资约束,传导至企业经营策略上,会左右企业的投资行为,最终影响企业价值。政府在从事商业行为时相较于其他商业主体更加诚信,通常政府业
中共中央东北局开展的土地改革运动,推翻了封建时期的土地制度,在东北地区实现了“耕者有其田”。《东北日报》作为中共中央东北局机关报,积极报道土地改革运动的动态,传播各地开展土地改革工作的先进经验和方法,宣传土地改革运动中涌现的积极分子的事迹,揭露地主阶级封建剥削的残酷事实,为东北地区土地改革运动的顺利进行起到了重要的舆论动员作用。本文以1946年5月至1948年11月《东北日报》发布的有关土地改革运
甘蔗制糖是我国南方的重要支柱产业。清糖浆是甘蔗制糖过程的中间产物,锤度是制糖过程分析的重要质量指标。传统的测量方法,需要采样、稀释、再通过锤度计(或折光仪)等实验室手工手段。操作繁琐耗时,对生产实时性的指导作用不大。近红外光谱分析技术是光学工程领域重要的应用方向。它具有快速、简便、无需试剂的优点,已经应用于甘蔗制糖过程中间产物的快速(或在线)检测。近红外光谱是一种间接分析技术,需要通过已知样品的光
当飞机和轮船在海上失事时,第一时间对失事目标进行搜索救援具有十分重要的意义。飞机和轮船上通常安装有行驶信息记录仪(俗称“黑匣子”),信息记录仪中会安装一个用于水下定位的声信标。当信息记录仪随失事目标沉入水中,声信标会自动开始工作并发射周期性声脉冲信号,因此可以利用水声定位方法对水下失事目标进行搜救。水下目标静止于海底,搜救时通常使用单个平台不断运动进行多点测量,再利用多个测量点的信息确定目标位置。
微细粒的矿物浮选仍是世界公认难题,由于其粒度小、质量轻,颗粒在流体中会随流体一起运动,没有足够的惯性来偏离流体的流线,从而难以与气泡发生惯性碰撞。微细粒矿物的难以回收造成了大量资源浪费。现有浮选动力学理论也表明颗粒脉动速度和滑移速度将直接影响颗粒与气泡的碰撞频率,因此湍流环境下滑移速度和脉动速度准确与否将直接影响到碰撞频率模型预测的准确性,开展湍流环境下微颗粒固-液两相流运动规律研究,建立湍流流场