说话人识别中集外话者的拒识方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zjxiaolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管在实验室环境下,说话人识别系统已经取得了较好的效果,但是现实中的很多因素使得系统性能明显下降,为了提高系统实用化程度,还需要解决很多问题,其中最关键的问题之一,就是如何在大量集外话者存在的情况下提高系统对集外话者的拒识性能。对于大量集外话者存在的问题,本文采用高斯混合模型-通用背景模型(Gaussian Mixture Model-Uniform Background Model, GMM-UBM)对说话人建模,以此为基础从说话人集内外分类和说话人确认两个方面研究如何减少系统对集外话者的误识。在说话人集内外分类方面,利用基准说话人识别系统收集的误识数据集和所有目标说话人的训练数据,采用最大化后验概率(Maximum A Posterior Probability, MAP)自适应方法,分别从UBM自适应得到集外模型和集内模型,根据测试语音在集内集外模型的得分进行集内外分类;在说话人确认方面,分别利用冒认者模型和语音特征变化统计量进行确认。冒认者模型是用基准系统收集的该说话人的全部误识数据从UBM自适应来的。语音特征变化统计量确认是本文提出的一种新的说话人确认方法,其主要利用了说话人的特征变化规律,计算目标说话人特征变化统计量,根据测试语音与说话人训练语音统计量的相似度进行确认。为了更进一步地提高系统的拒识性能,本文还采用了多种拒识方法融合的策略。实验结果表明集内外分类、冒认者辨识和特征变化统计量确认都能很好地提高系统的拒识性能,其中特征变化统计量确认方法不但可扩展性好,而且拒识效果最好,当召回率为95%时,错误接受率降低为基准系统的9%。三种拒识方法结合使用的效果最好,当召回率为95%时,错误接受率降低为基准系统的1.2%。
其他文献
经过近四十年的发展,人脸识别技术取得了长足的进步,已有许多商用人脸识别系统出现。但最近的FERET项目和FRVT评测结果表明:现有人脸识别系统在用户配合的理想情况下取得了比
随着半导体技术、通讯技术以及大规模集成电路的飞速发展,智能仪器系统的设计思想和方法发生了革命性的变化。新型的智能仪器系统融合了计算机、通信和控制技术,具有智能化测
随着互联网的高速发展,针对网络的攻击层出不穷。如果单靠软件来实现网络安全保护,对于处理器来说无疑是一个很沉重的负担。越来越多的网络安全设备厂商趋向于采用FPGA芯片与
数字版权管理(Digital Rights Management,简称DRM)是随着数字化的媒体信息在互联网上的广泛传播而发展起来的一种新技术。DRM技术的主要目的是保护数字化后的信息的版权及其
面向高校产学研实验室的综合管理系统是采用B/S架构设计模式,应用ASENET、C#等编程语言,在ACCESS数据库技术基础上开发的基于网络环境的综合管理系统。利用该系统,实验室可以达到
数字水印技术是信息隐藏理论的一个重要分支,是目前多媒体信息安全领域的一个新的研究方向。数字水印为保护多媒体信息的版权及信息的合法使用提供了一种全新的解决方案:将水印
随着时代的进步,计算机软、硬件技术的迅猛发展,计算机三维图形学技术得到了长足的发展并已经广泛的运用到各个行业并逐渐深入。同时,随着多核平台的普及与并行理论的发展,以
学位
联机分析处理是数据仓库系统中的一种多维数据分析技术,操作的对象是多维数据集。联机分析处理服务器与多维数据展示工具是联机分析处理系统的两个重要组成部分。随着Web应用
嵌入式地理信息应用是当前地理信息技术发展的一个新热点,被广泛应用于军事、野外、测绘、医疗、汽车导航等领域;个人汽车导航和PDA(或手机)定位服务的出现与发展更是将嵌入式地