基于UBM和深度学习的说话人识别方法研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:tomjerry2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别(又称声纹识别)就是从说话人的语音信号中提取代表其身份的特征从而进行识别的技术。它以其独特的通用性、长效稳定性和成本低等优势,在银行系统、司法安全和互联网人工智能等领域中都得到了广泛的应用,有着重要的研究价值。传统算法在数据量少时优势突出,而引入深度学习的方法,能充分利用当今大数据时代的优势,使说话人识别技术再次得到了突破。本文对实现说话人识别算法进行了研究,主要工作如下:(1)本文系统地介绍了实现说话人识别的预处理模块、语音活动检测、提取语音特征的方法以及传统的分类模型等。(2)研究了通用背景下高斯混合模型的说话人识别系统,推导了参数估计、模型训练和打分匹配的过程。设计了不同实验探究对系统性能影响的各种因素,包括统一背景模型中不同单高斯模型的数目、梅尔频率倒谱系数特征的不同维度、不同的特征组合以及语音信号的不同帧长等。在公开数据库和自己录制的数据集上分别进行了说话人识别的跨语种实验,进而更好地验证该系统性能。(3)搭建了一个基于深度学习的说话人识别系统,采用结合残差网络的深层卷积神经网络提取特征,然后平均池化以生成说话人级别的表征向量,并用基于余弦相似度的三元组损失函数训练。该系统可以将语音映射到一个超平面,从而可以通过余弦相似度来直接衡量说话人的相似度。设计实验探究不同网络结构的系统性能,通过加入Softmax和交叉熵预训练进行优化,同时在公开数据库和自己录制的数据库上分别进行中英文的跨语种对比实验,都得到了较好的识别结果。本文通过基于传统主流的GMM-UBM模型和基于深度学习的方法分别搭建了说话人识别系统,并设计了各种实验对影响系统性能的因素进行探究,同时分别通过两种架构对实现说话人识别的系统进行了横向和纵向的跨语种对比。
其他文献
代县位于山西省东北部,雁门关下,属忻州市。全县现有不可移动文物433处,其中包含了大量的县市保级古建筑。本文以首次田野调查获得的一手材料为基础,结合相关文献,记录和呈现忻州代县地区县市保级古建及其反映的民间信仰现状;阐释县市保级古建筑与民间信仰之间的关系;从古建筑遗存及其保护现状中反映的现象,说明物质文化遗产与非物质文化遗产之间的互相影响关系。本文共分七个部分。第一部分引言。主要介绍了研究背景、研
聚烯烃材料,包括聚乙烯(PE),乙烯-醋酸乙烯共聚物(EVA),乙烯-辛烯共聚物(POE)等具有环保,易加工及化学稳定性等优点,因此它广泛的用于电子电器、包装、汽车、通讯、农业和建
改革开放至今,中国经济保持了三十多年的高速增长,取得了令世人瞩目的成就。众多学者对此进行了不少的研究,大都认为,从上世纪七十年代末期开始,我国在经济体制和政治体制等
目的 通过复制致敏小鼠和哮喘小鼠模型,观察支气管肺泡灌洗液(bronchalveolar lavage fluid,BALF)及腹腔冲洗液细胞学变化、腹腔巨噬细胞(macrophage,Mφ)功能变化及树突状细胞(
研究背景及目的:放疗在前列腺癌治疗中占有重要地位,其杀伤肿瘤细胞的主要方式是引起肿瘤细胞DNA双链损伤,然而肿瘤细胞往往可以通过各种途径对损伤的DNA进行修复,使之对放射
目的:探讨丹酚酸B(Sal B)保护心脏的潜在机制是否通过激活磷酸肌醇3-激酶/蛋白激酶B信号通路(PI3K/Akt)来抑制高迁移率组蛋白1(HMGB1)的表达,从而改善大鼠心肌缺血再灌注损伤。方法:将66只大鼠随机分成假手术组(Sham组)、心肌缺血再灌注损伤模型组(I/R组)、治疗组。治疗组分为低剂量Sal B组(Sal-L)、高剂量Sal B组(Sal-H)和高剂量Sal B+LY29400
流体中的最优形状设计问题是微分几何、形状优化理论和计算流体力学有机结合的产物.随着计算流体动力学的飞速发展以及计算机性能的不断提高,基于计算流体动力学的最优形状设
近年来,随着复杂网络研究的兴起,复杂网络中的社团发现备受关注。社团结构是复杂网络最重要的拓扑结构属性之一,它揭示了复杂网络的隐藏规律和行为特征。复杂网络中的社团发
本研究旨在研制高存活率高活性益生菌制剂,并应用于肉鸡以验证其作用。1.益生菌制剂制备工艺筛选本试验以乳酸菌为试验菌,以其存活率和水分含量为指标,采用低温喷雾干燥技术
随着国家的发展和社会的进步,用户对电力供给的需求也有了更高的要求。为了增强能源的持续发展特性同时提高新能源的利用率,国外学者率先提出了微电网的概念。微电网成为开发