【摘 要】
:
随着科技的进步和人工智能的发展,互联网和信息技术在生活中得到广泛应用。说话人识别聚类是语音信号处理的一个研究方向,它的任务是在多个说话人分时说话的语音音频文件中识别说话人边界和说话人身份,使得相同的说话人被标记为同一类,且每一类中只包含一个说话人。说话人识别聚类通常使用说话人的嵌入向量来聚集音频片段,如i-vector。近年来,由于深度学习的快速发展,基于深度网络的d-vector嵌入向量在这个领
论文部分内容阅读
随着科技的进步和人工智能的发展,互联网和信息技术在生活中得到广泛应用。说话人识别聚类是语音信号处理的一个研究方向,它的任务是在多个说话人分时说话的语音音频文件中识别说话人边界和说话人身份,使得相同的说话人被标记为同一类,且每一类中只包含一个说话人。说话人识别聚类通常使用说话人的嵌入向量来聚集音频片段,如i-vector。近年来,由于深度学习的快速发展,基于深度网络的d-vector嵌入向量在这个领域也得到快速发展,但还有待提高。以GMMUBM模型获得的GMM矢量与聚类算法结合作为基线,本文将提出一种基于avector作为说话人嵌入向量的说话人识别聚类算法,在说话人嵌入特征提取、说话人聚类算法方面进行研究。本文的主要工作如下:第一,针对当前语音识别领域常采用的MFCC特征经过降维处理而存在过度加工的问题,采用梅尔语谱特征作为卷积神经网络的输入特征,保留更多的语音信息。第二,针对说话人特征提取网络中会忽略全局语音帧的相关性的问题,本文提出了一种基于多头注意力机制的a-vector提取方法。搭建基于CNN的说话人特征提取网络,为获得更好的效果,借助Resnet的思想改进说话人特征提取网络。结合语音数据的特点,在网络中引入多头注意力结构和修改交叉损失函数,以此获取不同特征图的权重矩阵,增强语音中说话人特征的区分程度。在相同的数据下,基于Resnet改进的网络比CNN的识别率提高了3%。这证明基于Resnet改进的说话人特征提取网络提取的a-vector表征说话人嵌入特征的质量会更好。第三,传统的聚类算法由于参数的选择、数据点的分布特点和聚类中心距离差距大等问题而影响聚类效果,提出一种基于特征间隔改进的说话人谱聚类算法。它能够自动估计聚类数目,且在任意分布的数据空间达到更高的聚类质量;本文对谱聚类中的相似度矩阵进行优化,可获得聚类数目和聚类中心,从而更好的识别说话人人数和分类。实验结果表明,改进的聚类算法具有更好的聚类质量。第四,联合说话人特征提取和说话人聚类模块,搭建说话人识别聚类系统。本文将不同的嵌入向量与不同的聚类算法结合进行实验,在相同的数据集下,a-vector与改进的说话人谱聚类算法相结合时比基线系统获得更低的错误率。
其他文献
新闻作为人们获取信息的一种重要手段,在推荐系统领域是一个研究热点。一个好的新闻推荐系统会吸引大量的用户,并且不同用户在不同地点的阅读需求是不同的,将地理位置这一因素加入到推荐系统中,可以使新闻推荐系统更有价值。基于此,本文设计了一种基于地理位置的个性化新闻推荐系统,本文的主要工作如下:(1)本文基于Flink分布式流式计算引擎,结合地理位置上下文信息,设计并实现了基于地理位置的个性化新闻推荐系统。
传统电信系统中的运维平台由于历史架构原因,与业务模块耦合较大,使得新模块的接入和兼容工作繁琐,开发效率低下,增加额外运维工作难度。同时运维平台需要关注服务的日志信息,通过过滤获取异常数据进行报警,传统运维平台中采用静态阈值过滤数据导致高负载机器出现大量无效报警影响运维效率。本文通过新的架构模式并运用不同的异常检测算法来解决上述两个问题。首先,本文按照软件工程开发流程,基于微服务架构中核心的服务治理
声纳图像作为准确获取水下信息的重要途径之一,在国防、军事、工程等方面发挥着巨大作用。然而,由于水声信道的复杂多变和声波本身的传播损失,声纳图像往往呈现出分辨率和对比度不高、噪声干扰严重、目标轮廓模糊等特点。虽然对于光学图像的预处理和分割已有大量效果很好的算法,但研究针对声纳图像特点的处理方法仍是极具应用价值的。本文主要聚焦于声纳图像预处理中的去噪、增强两个方面和声纳图像分割方法,开展了以下研究工作
如今不同科学技术发展迅速,在当前时代背景下医疗影像技术也有了飞速的进展,医疗影像在临床诊疗、教研科学等方面具有重要的作用,分析解读医疗影像同时书写对应的报告是当前诊疗过程中不可缺少的步骤。医疗影像的分析和解读是一项具有挑战性的工作,医生有可能会因为劳累或缺乏足够的经验而出现错误分析,造成疾病漏诊误诊的问题,导致病人错过最佳治疗时机;而对经验充足的医生而言,这是一项费时又枯燥的工作,且造成了医疗资源
阿尔茨海默病(Alzheimer’s disease,AD)是一种常见的神经系统疾病,多发于六十周岁以上的老年群体。其临床表现为记忆力、理解力、执行功能等多种认知功能障碍。由于当前并没有针对此病症的特效药物,要治愈阿尔茨海默病十分困难,提前进行预防就显得尤为重要。随着我国逐渐步入老龄化社会,对阿尔茨海默病患者的早期防治刻不容缓。在计算机技术保持发展的当下,基于磁共振成像(Magnetic Reso
近年来,我国越来越重视农业品牌建设。从2016年起,中央一号文件多次提出推进农产品品牌化建设。陕西作为农业大省,各地市特色农产品数量多、质量优,创建一批具有鲜明地方产业特色、生产经营规范、在市场上具有较强竞争力的农产品品牌,对于推动陕西农业发展、促进农民增收具有很大的意义。但是,由于农产品区域品牌建设是一项系统工程,如果仅仅依靠企业,就存在资源配置不均、资金技术力量有限、规模优势发挥不明显等问题,
三维重建技术作为计算机视觉中一个热点研究方向,在社会生产生活如无人驾驶、医疗诊断、考古挖掘等领域发挥着重要的作用。和其它三维重建技术相比,利用反射光偏振信息恢复目标物体三维模型的方法,能够使用低成本的设备完成高精度的成像任务,受到了越来越多科研人员的关注。本文从反射光的偏振特性与表面法线的关系出发,提出了一种利用漫反射光偏振信息恢复物体三维模型的方法。该方法结合双目视觉重建技术获取物体初始点云作为
知识图谱技术应用在不同的行业中其中包括教育行业,而数学是教学的重点。数学学科具有很强的结构性,数学知识点之间构成体系,本文通过提出一种数学知识点特征的知识图谱构建方法,并把知识图谱运用于数学题目的知识点特征提取研究,最终实现数学知识点特征自动提取系统,本文主要的工作如下:构建了基础概念知识图谱与数学知识点体系图谱。基础概念图谱根据数学语言中涉及的数学实体以及实体间的关系来进行构建,实体有551个,
近些年来,随着神经网络的迅猛发展,目标识别技术也随之在精度和速度上都得到了快速提升,进而被广泛应用在灾难救援、军事打击、视频监控等领域。传统的线下目标识别通常是分阶段式处理的,即首先将获取到的影像拷贝至本地计算机,然后再将目标进行识别,最后把识别到的目标发送给需要的用户。这种方式已经不满足当下的发展,尤其是军事打击和嫌疑追踪这种识别精度和实时性要求高的领域。随着无人机载重的提升、嵌入式设备的更新,
新生活运动(简称新运)是时任国民政府军事委员会委员长的蒋介石于1934年2月19日在江西南昌发起的一项大型国民教育运动。新运一经推行,其主要载体新生活运动促进会立即成立(1934年7月1日升格为新生活运动促进总会),并由蒋介石亲自担任会长。新运从发起到1949年国民党内战失利后暂停办理,在中国大陆持续了十五年之久,作为一项运动,从时间跨度和规模范围来看,它是罕见的。在这十五年当中,中国发生了巨大变