基于LSTM与聚类分析的语音分离与跟踪算法研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户：zdbzdb

【摘要】

：

【作者】

：

刘航

【出处】

：

广东工业大学

【发表日期】

：

2019年01期

【关键词】

：

语音分离说话人识别语音跟踪时频掩蔽说话人辨认类别置换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现阶段,语音交互技术例如语音合成、自动语音识别(automatic speech recognition,ASR)等在现实生活中得到广泛的应用,但在真实环境下伴随着如背景噪声、多个说话人声及混响等相关干扰因素,降低了说话人语音的听感和可懂度,从而影响语音交互的实际效果。而语音分离与跟踪技术,即为解决从多个说话人干扰或者其他背景噪声中获得高保真、高纯净的目标说话人语音信号的问题,可应用于嘈杂环境下的会议记录、公安刑侦监听以及语音身份认证等领域,具有广阔的应用前景及研究价值。本文对语音分离的理论和相关的算法进行了研究,分别针对语音分离、声纹识别等相关算法模块进行具体描述,就以生成对抗网络改进语音的时频掩蔽、以说话人识别为基础的语音跟踪展开深入研究。其主要工作如下:首先,介绍了基于时频掩蔽的神经网络语音分离算法原理,阐述了采用LSTM对语音信号建模在抽取时序特征的优势,分析了当前监督性语音分离中仍存在不足之处。然后采用了基于生成对抗网络的语音分离方法,在语音生成阶段引入一种递归推导算法和稀疏编码改进时频掩蔽的生成,并接入判别器分类对真、假语音信号进行判定,使得生成的信号不断地逼近目标语音信号,降低信号源间的扰动。然后,提出了基于说话人识别的说话人语音跟踪,即仅利用说话人识别及语音分离的纯音频技术,实现端到端的语音跟踪。其中,在说话人识别部分,分析了经典声纹识别模型GMM模型在少量语料下的不足之处,然后采用GMM-UBM说话人模型对目标说话人建模,以构建说话人辨认系统;在说话人语音分离部分,验证了增大语音时间帧输入可避免多次聚类导致的类别置换问题,并对说话人语音分离方法进行改进,具体包括在K-means聚类中对质心进行缓存及降低采样率,以提高语音分离的实时性,优化其损失函数,对其中的embedding特征空间引入正则项,并验证语音跟踪可行性。最后,本文采用MIR-1K与TIMIT语音数据集对上述对应的方法进行了实验仿真,实验结果表明生成对抗网络对引入噪声(SAR)的抑制能力比较强,GMM-UBM模型在短时语音的测试中仍然具有较高的识别率,且在说话人语音分离算法中对损失函数以及聚类过程的优化,可以有效提高算法的实时性及其语音分离质量。

其他文献

探讨变应性鼻炎患者行穴位贴敷治疗依从性的护理策略

目的探讨变应性鼻炎病人行"三伏贴""三九贴"治疗依从性的护理策略。方法选取2015年7月-2017的1月在我院进行"三伏贴""三九贴"治疗的变应性鼻炎患者80例,通过加强宣教,发放穴

会议

变应性鼻炎穴位贴敷依从性护理策略

血缘、地缘、业缘:新市民的社会关系转型

新市民是指由农村向城市转移的新增城市常住人口。我国2000-2010的10年间新市民增加2.11亿,接近城市人口的1/3。传统乡土社会,人们以血缘关系为轴心、以家族或宗族的形式聚集

期刊

社会关系新市民血缘关系地缘关系业缘关系

关系营销也腐败

<正>关系营销是指以建立、维护、经营、改善、调整各种关系为核心,对传统的交易营销理念进行改革的新理论,核心是关系管理,基础是客户关系管理,前提是有效的内部营销。按营销

期刊

关系营销分销商稀缺资源

营销腐败成因浅析及对策探讨

随着经济发展,营销腐败蔓延到各个行业和阶层,对社会、企业、顾客产生了影响。该文从当前的商业环境和企业对营销腐败的两难心态两个方面浅析营销腐败产生的原因,并探讨了防

期刊

营销腐败“两难心态”对策

CuO纳米线对挥发性有机化合物的气敏性能

通过简单经济的水溶液法并配合后续煅烧制备出了一维Cu O纳米线。利用SEM、XRD、XPS等手段对所得纳米线的形貌、组成和晶体结构进行了表征,同时还测试了其在200℃下对常见挥

期刊

水溶液法CuO纳米线VOC灵敏度气敏传感器

miRNA与基因调控网络的预测与分析

随着研究者对疾病和基因之间关系的探讨性研究,两者间的关联逐渐为人们所认知,尤其基因测序技术和计算机技术的发展更是极大促进了研究的深入。高通量测序技术的不断发展,使

学位

miRNAPanCancermRNA调控网络聚类靶基因生物学通路

《写读后感》教学设计

教材分析《写读后感》是人教版课程标准语文实验教科书五年级上册口语交际习作七的内容,这是学生第一次写读后感,因此要引导学生从读过的书中,选择感受最深的内容,联系自己的

期刊

教学设计教学预设圆明园习作教学互动评价《写读后感》

泮托拉唑三联疗法治疗幽门螺杆菌阳性消化性溃疡患者疗效观察

目的研究泮托拉唑三联疗法治疗幽门螺杆菌阳性消化性溃疡患者的临床疗效。方法选取2012年1月~2014年1月收治的阳性消化性溃疡患者60例为研究对象,将其随机分为对照组与观察组

期刊

消化性溃疡泮托拉唑三联疗法疗效观察

高温隔热/承载一体化热防护连接件的设计与高温失效机理研究

近空间高超声速飞行器中热防护系统是不可缺少的重要组成,热防护系统通过各个结构的连接构成整个体系来实现其工作性能。其中热结构连接件的强度和可靠性关系到飞行器的结构安全,其隔热性能关系到整个热防护系统的隔热能力。热结构连接件的一个设计难点是避免连接结构因“热桥”效应而失效,即如何保证热防护系统中的连接结构在传递荷载同时又不能造成过多的热流失,因此设计出一种高强度、低热导率的热连接螺栓具有重要的意义。本

学位

Ni/Y2SiO5金属陶瓷功能梯度复合材料连接件结构热力耦合结构设计

大数据处理在省级应急平台中的应用

针对近年来随着计算技术和互联网技术的不断发展而逐渐兴起的大数据处理技术,结合省级应急平台系统的建设,对大数据的概念和特点深入了解,分析了大数据处理与应急平台系统建

会议

大数据应急平台突发事件应急管理数据存储

基于LSTM与聚类分析的语音分离与跟踪算法研究

与本文相关的学术论文