基于域对抗训练和注意力机制的鲁棒说话人特征研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaohe1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的语音特别容易受到外界因素的影响,例如环境噪声、音频采集工具的差异、音频传输信道的差异、说话人使用的语言种类、语音的内容和风格等因素都会改变语音的声学表示,进而给说话人识别性能带来影响。因此,面对真实场景下的鲁棒说话人特征研究显得尤为重要。另外,训练语料与实际使用的语音数据的分布可能存在较大差距,这样的问题可以用域不匹配来概括。对于鲁棒性特征研究的关键内容主要分为两种情况:一种是训练测试语料变化不大,受到噪声等轻微因素干扰的同域问题;另一种是训练测试语料存在明显的域不匹配现象的跨域问题。本文在同域和跨域问题上对鲁棒说话人特征进行了研究。在同域问题上,从模型的角度优化,提取包含更多说话人信息的特征,以此来提高特征的鲁棒性。对于跨域问题,使用域对抗训练来对特征进行后处理,以获取对域鲁棒的域无关特征。主要的研究内容包括:(1)提出了基于长短时记忆网络(Long Short-Term Memory,LSTM)和注意力机制(attention)的说话人表示特征提取方法。利用LSTM对帧级特征之间的时序信息进行建模,对表示特征提取模型在帧级、段级特征转换过程进行优化,进一步提取长时信息中的说话人成分。在融合得到段级特征的过程中,使用注意力方法优化帧级特征权重,选取对说话人表示有用的帧级特征,抑制说话人无关帧级特征的影响,以提高同域数据下特征的鲁棒性。(2)提出了基于自适应查询(query)的注意力计算方法。注意力计算中往往伴随着一个训练得到的全局向量,这个全局向量中包含了过多的训练数据信息,会影响测试集说话人表示特征的提取。通过基于语音本身计算得到的自适应查询,代替训练得到的全局向量,使帧级特征向段级特征的转换过程更加关注于需要提取说话人特征语音本身包含的说话人信息,进一步实现对于同域问题下鲁棒说话人特征的提取。实验结果也显示出该方法在跨域问题上同样表现出较好的效果。(3)提出了使用改进域对抗训练提取域无关说话人特征的方法。通过模型的优化不能够完全消除域信息的干扰,因此考虑通过特征后处理的方法,将已经提取的说话人特征进行处理,去掉其中包含的域信息。利用梯度反转层的域对抗训练方法,实现了特征提取器与域分类器的对抗。训练结束后使用特征提取器来提取域无关的说话人表示特征,以提高说话人特征对于跨域问题的鲁棒性。在域对抗训练的过程中,来自说话人分类器和域分类器对特征提取器梯度的下降方向,在合成之后不一定保证同时满足两个分类器的优化方向。因此利用梯度旋转的方法使合成后的梯度满足两个优化任务,保证特征提取器训练过程中梯度下降的方向是有效的,以促进训练的进行。
其他文献
目的 探究肝郁脾虚型与肝胆湿热型慢性乙型肝炎中医证型与临床检验指标的相关性。方法 选取2020年8月—2021年3月慢性乙型肝炎患者100例,其中肝胆湿热型肝郁脾虚型各50例,探究肝郁脾虚型与肝胆湿热型慢性乙型肝炎中医证型与临床检验指标之间的相关性。结果 经过检验之后,慢性乙型肝炎肝胆湿热型患者丙氨酸氨基转移酶(ALT)、总红胆素(TBIL)、谷氨酰转肽酶(GGT)、血清门冬氨酸氨基转移酶(AST
边缘计算是一个新型的研究方向,通过将计算负载带到离用户更近的边缘端,降低了数据传输量和延迟,提高了服务质量。而无服务计算则一种新的开发运维模式,开发者只需要关注应用的逻辑,不需要进行服务器的运维。本文提出了一个适用于边缘计算的无服务计算框架,分析了当前无服务计算系统存在的问题和结合边缘计算时需要的改进,提出了单节点使用的框架。并且在电接点的问题上,分析了多节点的问题,并且做出了多节点上需要的改进。
当发生世界级的大型传染病时,非常重要的一步就是对疾病进行大规模的检测识别。及时的发现大型传染病患者的不仅可以促进患者治疗,同时还能防止传染病的继续传播。以新冠为例,在无法进行大规模核酸检测的时候或者需要快速得到检测结果的时候,利用计算机技术使用咳嗽音频对新冠进行检测可以对疾病进行前期的预防、预警。还可以利用计算机技术对真实环境中的咳嗽音频进行定位,以此来快速的寻找疑似新冠患者。本文以新冠肺炎为例,
多带频谱感知技术面临宽带采样的压力,需要通过压缩感知理论进行欠采样,然后再获得频谱使用情况。它主要有可靠性、有效性和实时性的要求。传统的模型驱动的算法在信号先验知识的探索以及最优化算法的应用上取得了长足的进步,但是在信号与模型不完全一致的情况以及低信噪比环境(本文定义为0d B以下)下性能不尽如人意。机器学习兴起以来,数据驱动的算法在许多领域都取得了巨大成功,本文选择一些较为成熟的模型应用在多带频
话剧IP的影视化开发,成为当下中国电影产业融合大背景下的一个趋势,这也使从电影现象学的角度研究“电影经验”,分析戏剧改编电影与观众的互动关系变得十分重要。从电影现象学的视角出发,从戏剧舞台到“触摸电影”实现了戏剧改编电影作品的感知方式变异。电影主体的视角存在内在认同的强情感性和外在认同的强悬念感的两种选择,“观众身体”与“电影身体”的互动存在“纵向意识”与“横向意识”的混合影响认同模式的动态结构。
在第 5 代通信网络(the fifth generation of cellular networks,5G),非正交多址接入(Non-Orthogonal Multiple Access,NOMA)作为一种能够实现大规模接入和高频谱效率的接入方式,具有巨大潜力。而多输入多输出(Multiple Input Multiple Output,MIMO)系统可以利用空间资源提高频谱效率和传输速率。因
卫星激光通信与传统的微波通信相比有许多优势,是当前研究热点。在通信过程中,对激光瞄准、捕获、跟踪是研究的重点和难点。建立连接的过程中首先需要使用信标光瞄准接收端,确定信标光的方向,确定方向的关键是准确地定位接收端成像光斑的中心。由于光经过大气的过程中,受到大气湍流的影响,光束的振幅、相位等会出现畸变。这将导致接收端的成像光斑光强分布不均匀甚至破碎,这给光斑中心的精确定位带来了困难。本文首先分析了如