【摘 要】
:
当今的说话人识别任务往往局限于使用传统的特征提取方法而忽略了说话人个性化特征的产生机理。一些广泛用于语音识别的特征被直接应用在说话人识别任务中,但这两种任务在某种程度上存在对立性,尽管大多数特征在实际应用中可以取得较好的识别结果,却没有明确合理的解释。特征提取器是说话人识别系统的首个组成部分,其在一定程度上决定了之后分类模型的性能,一个好的特征需要包含能够强调说话人个性化特性的部分。为此,本文聚焦
【基金项目】
:
国家自然科学基金; 国家重点研发计划;
论文部分内容阅读
当今的说话人识别任务往往局限于使用传统的特征提取方法而忽略了说话人个性化特征的产生机理。一些广泛用于语音识别的特征被直接应用在说话人识别任务中,但这两种任务在某种程度上存在对立性,尽管大多数特征在实际应用中可以取得较好的识别结果,却没有明确合理的解释。特征提取器是说话人识别系统的首个组成部分,其在一定程度上决定了之后分类模型的性能,一个好的特征需要包含能够强调说话人个性化特性的部分。为此,本文聚焦于面向说话人识别的个性化特征进行研究,分别就以下两个方向展开讨论:一方面,本文基于说话人识别任务和个性化言语生成机理知识分析,探究了包含说话人个性化信息与动静态特征频率分布之间的相互联系。我们提出假设1:“说话人静态个性化特征存在于高频区域,说话人动态个性化特征存在于低频区域”。我们将设计的两种滤波器形状(线性频率尺度上的高频强调和低频强调)及子带滤波器作为高低频的特征提取器,使用TIMIT数据库进行了F-ratio分析和说话人识别验证实验。实验结果表明,高频强调的滤波器组性能优于低频强调的滤波器组,我们关于静态特征存在于高频区域的假设得到了支持。另一方面,为了探究性别差异在声学特征及说话人识别任务上的体现,本文首先对男性和女性在生理学上的差异进行了分析,之后通过假设2来探究存在性别差异性的特征在说话人识别任务中的体现,即:“说话人静态个性化特征的频率分布存在性别差异性,且其在说话人识别任务中有所体现”。我们借助于声道和声源相关特征,从生理学机理出发,在性别平衡的TIMIT子数据库上进行了F-ratio和说话人识别任务验证。结果表明,相较于男性,女性的个性化信息存在于更高和更宽的频率范围。且在声道和声源特征上男性和女性都具有不同的说话人识别表现。虽然复杂环境(噪声鲁棒,跨信道等)下的声纹识别同样非常重要,但超出了本文的研究范围,本文的主要目的是从言语生成角度出发,分析理解语音信号中的说话人个性化信息。
其他文献
环形可展天线服役于空间环境,空间高低交变的温度场使得天线的热变形时刻发生着变化,其形面精度和张力分布也随之改变,进而影响天线信号传递的稳定性。本文以环形可展天线为研究对象,基于力密度和非线性有限元的找形方法,研究了考虑热变形的找形方法。首先,介绍了空间热环境特性,详细阐述了空间低温、空间真空、空间微重力和空间热源的特点及其对天线产生的影响;进而对空间热源参数做出基本假设,定义了天线轨道及其运行姿态
人工智能技术的发展促使语音交互从由系统占主导地位的第一阶段进入双向互动的第二阶段,人与机器的互动更加简单、高效、自然和多样。一方面,相较于图形界面交互,目前对语音交互的研究较少,缺乏具有普适性的用户体验模型;另一方面,老龄化问题愈发严峻,老年人生理、认知、心理特征使其有希望成为语音交互的潜在用户。本文具体研究内容及成果如下:1.搭建具有普适性的语音交互下的用户体验要素模型。用户体验要素模型是由Je
光遗传学技术是一种具有精准靶向、快速响应等优势的新兴生物神经调控手段。传统光遗传实验系统主要采用的植入光纤或器件的方式会对动物行为学分析造成一定的影响。因此,利用视觉技术进行定位和跟踪的无线光遗传实验系统的研究具有重要实践价值。本论文针对目前光遗传学实验系统存在的缺陷,提出并设计了一种基于视觉跟踪的无负重、无植入、满足大范围辐照的系统方案。根据对主流视觉跟踪算法的分析,将内建状态转移模型的粒子滤波
大数据发展的今天,部署在数据中心的应用类型和体量剧增,对数据中心网络资源管理提出富有挑战性的考验。在资源管理中,数据中心网络不仅需要满足应用的需求,同时也需要考虑网络资源成本。Coflow调度是数据中心网络资源管理的有效技术手段。然而,现有的研究工作要么是以减小Coflow的完成时(CCT)为目标,要么是保障Coflow在截止时间(Deadline)之前完成。这两个目标虽然都能够提高应用的性能需求
曲面屏是指一类用于非平面显示设备上的曲面盖板薄透件,凭借屏幕眩光弱、显示效果出色等优点被人们所钟爱,广泛应用于智能手机、智能穿戴、车辆工程以及航空航天等领域。但目前曲面屏的加工工艺精度控制不稳定,生产中产品几何尺寸加工精度低、屏幕平面度差以及屏幕厚度不均匀等问题时有发生,严重影响了显示设备的正常使用。对大面积曲面屏的测量需求,急需一种快速高效、低成本、可进行屏幕多层同步测量的曲面屏测量方案。针对以
自动语音识别技术发展至今日,无论是在传统混合语音识别架构还是新兴的端到端识别架构上,在声学语料充足、资源丰富的语言上,均已取得了不错的识别效果。而对于一些语料较为匮乏的低资源语言,缺乏转录语音训练数据这一核心问题,使得这些语种在搭建语音识别系统任务中仍然受到很大限制,其语音识别研究仍停留在较为初级的层面。本文的研究目的是利用迁移学习的思路,选择在端到端架构上,采用多语言语音识别技术提升低资源语言的
太赫兹波通常是指频率介于0.1-10 THz之间的电磁波。太赫兹器件的发展是促进太赫兹波研究的重要组成部分,其中太赫兹源的研究又居于主要地位。太赫兹光电导发射天线具有宽频带、高信噪比、低泵浦光功率以及可光纤集成化等优点,被广泛应用于太赫兹光子学研究中。目前的光电导天线存在的主要问题是无法对其辐射的太赫兹波的频谱进行调控,这很大程度上制约了太赫兹技术实用化的进程。为了拓展光电导天线的功能,高自由度地
随着片上系统的应用与创新,嵌入式存储器在片上系统占据的比例越来越高。存储器内建自测试是常用的嵌入式存储器测试技术,对于片上系统数量庞大的嵌入式存储器,需要提高测试效率,减少测试时间。因此,本文对基于测试时间优化的嵌入式存储器内建自测试进行了研究。当存储器内同时存在静态故障与动态故障时,诊断数据存在数据冗余的问题,面临故障行或故障列时,冗余率激增,导致测试时间长。针对上述问题,将诊断数据无损压缩和故
随着无线访问接入点AP(Access Point)在室内环境中的大量部署和应用,利用WiFi进行室内定位的技术成为研究热点。近年来,室内定位技术已有很多优秀的研究成果,但是能够在真实大规模场景中部署应用的却很少。这是由于利用WiFi定位需要在参考点上采集大量带有位置信息的WiFi信号强度(RSS,Received Signal Strength)指纹数据来构成指纹库。这些指纹数据通常由专业人员采集
随着单模光纤通信容量不断的逼近非线性香农极限,人们迫切的需要开发新的维度来拓展通信容量。基于少模光纤的空分复用技术因能充分利用光纤中的空间维度而备受关注。但在少模光纤应用于光纤通信系统的过程中,需要充分考虑非线性效应对少模光纤的影响。因此本文对光纤中的非线性效应进行了研究,并重点研究了少模光纤模间四波混频的频谱关联特性。本文主要工作包括以下三个部分:一、对少模光纤参数与少模光纤特性进行了仿真研究。