基于多分支聚合网络的短语音说话人确认方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lpucicy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人确认(Speaker Verification)是一项判断某段语音是否来自于给定说话人的技术。随着互联网的迅速发展和移动设备的广泛普及,采集一个人的语音数据已经变得越来越容易,这极大的方便和促进了说话人确认技术的研究。经过数十年的发展,虽然该技术已经获得了长足的进步,但是短语音条件下的说话人确认因为数据短、说话人身份信息很少,导致难以提取出足够充分的说话人区分性信息,进而影响着模型的打分与判别和系统整体的识别效果。因此短语音说话人确认仍然是一项具有挑战性的任务。针对短语音说话人确认问题,本文的研究内容主要包括以下几个方面:(1)提出了一个基于多分支聚合(Multi-Branch Aggregation,MBA)网络的说话人嵌入特征提取方法。鉴于单通道系统难以提取充分的说话人身份信息,以时延神经网络(Time-Delay Neural Network,TDNN)为基础,增加提高了节点数和时延值的Large_TDNN(L_TDNN)网络以及降低了节点数和时延值的Small_TDNN(S_TDNN)网络构成多分支结构,提取多个通道的特征,然后通过池化层后使用特征拼接对多分支结果进行聚合。实验结果表明,该方法在测试语音上取得了比基线系统更好的性能。(2)提出了一个基于多分支多尺度聚合(Multi-Branch and Multi-Scale Aggregation,MBMSA)网络的说话人嵌入特征提取方法。鉴于在每个单独的通道中特征从网络低层传输到高层过程中存在信息丢失的问题,需要把传输过程中丢失的信息重新找回来,在每次特征传输时可以把低层网络的信息尽可能保留下来,因此在多分支网络中采用可以实现上述需求的多尺度聚合方法,以进一步提高算法性能。该方法的实现需要体现出不同网络层之间尺度的多样化,所以使用基于卷积神经网络(Convolutional Neural Networks,CNN)的残差网络(Residual Networks,ResNet)构建多分支多尺度聚合网络。实验结果表明,提出的多分支多尺度聚合网络在短语音说话人确认问题上能够取得较好的效果。
其他文献
在第 5 代通信网络(the fifth generation of cellular networks,5G),非正交多址接入(Non-Orthogonal Multiple Access,NOMA)作为一种能够实现大规模接入和高频谱效率的接入方式,具有巨大潜力。而多输入多输出(Multiple Input Multiple Output,MIMO)系统可以利用空间资源提高频谱效率和传输速率。因
卫星激光通信与传统的微波通信相比有许多优势,是当前研究热点。在通信过程中,对激光瞄准、捕获、跟踪是研究的重点和难点。建立连接的过程中首先需要使用信标光瞄准接收端,确定信标光的方向,确定方向的关键是准确地定位接收端成像光斑的中心。由于光经过大气的过程中,受到大气湍流的影响,光束的振幅、相位等会出现畸变。这将导致接收端的成像光斑光强分布不均匀甚至破碎,这给光斑中心的精确定位带来了困难。本文首先分析了如
人类的语音特别容易受到外界因素的影响,例如环境噪声、音频采集工具的差异、音频传输信道的差异、说话人使用的语言种类、语音的内容和风格等因素都会改变语音的声学表示,进而给说话人识别性能带来影响。因此,面对真实场景下的鲁棒说话人特征研究显得尤为重要。另外,训练语料与实际使用的语音数据的分布可能存在较大差距,这样的问题可以用域不匹配来概括。对于鲁棒性特征研究的关键内容主要分为两种情况:一种是训练测试语料变
感知,是近些年来无线技术领域的一个热门话题。伴随着无线电技术向着物理世界不断延伸的趋势,人类的生活开始变得充满了无数种可能。Wi-Fi作为一种室内最常见的通信信号,也随着这种趋势在悄然的变革中。下一代IEEE802.11标准中,用其作为室内感知信号是一个重要的方向。一方面工业界考虑在标准的制定上为Wi-Fi信号开辟更大的带宽。另一方面,学术界也在思考如何提出有效而合理的解决方案。从目前来看,想要实
近年来,小型无人机被广泛应用于各个领域,给工业生产和日常生活带来了极大的便利。然而,由无人机“黑飞”所造成的威胁公众安全的事件也频频发生,严重干扰了人们正常的生产生活秩序。为了抵御由无人机带来的安全威胁,对其发现、识别并予以反制的需求也不断上升。作为典型的“低慢小”目标,无人机本就有着难以被雷达探测到的特点。加之其体积小,机动性强,结构特殊,善于低空飞行,这一系列特点更是加大了雷达对其进行探测的难
随着科技发展,导航技术的种类不断丰富,在各个领域的应用也变得更加广泛。基于惯性-地磁组合导航的地磁定向技术也因为其可靠性和隐蔽性得到了学者的关注。但地磁定向平台的加速度计、陀螺仪、地磁传感器在工作过程中会受到外界噪声的影响,同时地磁传感器还会受到温度漂移的影响,降低数据采集的正确性。针对以上问题,本课题设计了各传感器的误差补偿算法,地磁传感器的温度补偿算法以及姿态解算算法。首先对加速度计、陀螺仪、
由香农分离定理可知,在不对时延和复杂度进行限制的前提下,分别优化信源编码和信道编码也能实现最优性能。以此为基础,现代通信系统大多采用如JPEG、JPEG2000、BPG等经过高度优化的信源编码算法,配合如LDPC,Turbo码,Polar码等接近最优的信道码,来逼近理论最优。近几年,随着深度学习的蓬勃发展,无线通信中的信源信道联合编码的研究取得了很大的成功。但是分离的编码方案受“悬崖效应”影响,基
泵类机械设备在各个行业都有着广泛应用,针对故障诊断的问题,传统人力巡检为主的方式效率较低且浪费资源,在分析泵类工作原理和故障特征后,本课题将依据传感器采集到的振动信号数据设计故障检测方法,建立故障诊断模型。针对传感器实际采集中受到环境噪声干扰严重的情况,利用小波变换对信号在时频域分析的优点,本文采用小波变换分解含噪信号,通过有效信号和噪声对应小波系数模值的差异特性进行去噪,结合不同传统阈值函数的优
通过分析现阶段我国药学科普发展现状,探讨药学科普推广的深远意义,并结合重庆市中医院自身优势与特色,采用多维度、多样化的创作手法,丰富中医药类科普形式与内容。同时,基于多种传播平台,运用多种传播手段,梳理出一条适合中医药学类科普发展与推广的高效模式,提高中医药类科普创作质量,纠正大众用药误区,树立大众健康自信。