说话人识别中的特征学习方法研究

来源 :清华大学 | 被引量 : 6次 | 上传用户:plbplbplb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。随着技术发展,说话人识别系统现已取得了不俗的性能表现。然而,受各种不确定性(如非限定文本、跨信道、环境噪音、说话方式等)的制约,当前说话人识别系统仍难言可靠。为此,本文聚焦在说话人识别中的特征学习方法研究,利用深度学习方法从语音信号中学习与说话人相关的特征、削弱与说话人无关的不确定性,以此提高说话人识别系统的性能。本文的主要贡献如下:一、提出了基于卷积-时延深度神经网络的说话人特征学习方法。从语音信号的基本特性出发,结合说话人信息在语音信号中的表征形式,针对语音信号的局部属性、动态属性和模型的可训练性,设计了一个由卷积、时延和组归一化所构成的卷积-时延深度神经网络(CT-DNN)模型,用于说话人特征学习。通过定性和定量分析,验证了所学到的说话人特征具有较强的说话人区分性。二、验证了说话人特征学习的推广性。考虑到说话人特征学习的训练目标是最大化区分不同说话人,而并不是直接针对说话人识别任务。为此,本文从多个角度设计了不同的推广性研究方案,验证了所学到的说话人特征在不同说话人识别任务中的通用性和普适性,证明了说话人特征学习的推广性。三、提出了基于全信息训练的说话人特征学习方法。考虑到说话人特征学习的训练目标只关注于最大化说话人的类间离散度,而忽略了对说话人的类内内聚性的限制,使学到的说话人特征存在类内发散的问题。为此,本文从模型自身出发,提出了一种基于类中心趋近准则的全信息训练方法。在保证最大化区分不同说话人的前提下,该方法在模型训练中加入了对说话人类内方差的限制,提升了所学说话人特征的类内内聚性。四、提出了基于音素相关训练的说话人特征学习方法。考虑到说话人特征在学习过程中完全依赖于复杂的模型结构和大量的语音数据,这种“盲目”的数据驱动使得模型在训练过程中极易受到发音内容等信息的干扰。为此,本文受条件学习的启发,提出了一种基于音素补偿准则的音素相关训练方法。该方法在模型训练中先验地引入音素条件,使说话人特征在学习过程中即时得到音素信息的补偿,削弱了因发音内容不同而导致的说话人特征发散问题,提升了所学特征的说话人区分性。
其他文献
空气中的悬浮油颗粒物是危害身体健康的重要污染物,主要来源于烹饪以及工艺过程。过滤技术作为一种原理简单、操作方便、能耗小等优点被广泛应用于油颗粒物处理领域。然而,目
为了满足乘用车轻量化的要求,对现有的某铝合金控制臂成形工艺参数和预锻模具进行优化。利用单一变量法并结合有限元分析软件,对预锻工序的锻造温度和模具温度进行分析,确定
随着我国证券市场的不断完善,股票投资者的日益成熟,上市公司数目的日益增多,我们不难发现,尽管股票市场的涨跌和股价的高低仍将不时受到诸多主客观因素的影响,但归根结底,个股股价
目的探讨预防性补充氨基酸螯合铁剂对34周以上早产儿血红蛋白的影响。方法将75例34~37周早产儿随机分为三组。对照组不预防服用药物;低铁组生后2周至6个月口服甘氨酸螯合铁[
<正>字理教学就是根据汉字的构字规律进行识字和析词的一种语文教学方法。阅读教学中的词语品味往往只对某个词,而不具体到某个字。因此,我们可以在阅读教学中对词语中的关键
期刊
随着小学语文教学的开展,中高年级的学生面临着一些语文学习上的困境。为了解决这些问题,引导学生更好的开展语文学习,笔者介绍了字理教学方法,希望能对小学语文教育者的工作
目的构建危重患者院内转运护理质量评价指标体系,进行信效度检验及临床应用,为危重患者院内转运护理质量的评价与监测提供参考依据,基于指标数据推动护理质量持续改进。方法1
建筑与叙事的关系最早可以追溯到古希腊时代,雅典卫城各神殿的坐落方式被认为是十分精妙的蒙太奇式叙事序列。然而真正把叙事概念融入建筑理论中,并将其作为一种设计手法运用
目的研究呼吸气囊经高水平消毒后的包装及存储效期,为科室临床安全使用呼吸气囊及降低医疗成本提供依据。方法将从临床各科室集中回收,并送至消毒供应中心的60套呼吸气囊经高
美国早期文学之中出现的清教主义的思想是源自与北美移民的这一重要过程。清教主义原本存在的形式为教义,但是与早期文学相融合过后就具备了新的意义与价值,并在美国的文学创