连续音频流环境下的说话人检测技术

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:chenzenghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人检测是基于生物特征识别技术、从音频信息中搜索和定位目标人出现的次数和时间位置的一种模式识别技术,是语音识别应用领域的一大研究课题。本文基于电视广播音频检索和电话对话犯罪嫌疑人追踪等应用背景,针对连续音频流下说话人检测中的关键问题及技术难点,在以下几个方面进行了研究:   在音频切分方法上,提出了基于熵变化趋势和KL2/VQ聚类的二级音频切分方法。首先,通过音频信号的熵变化曲线,对音频流进行预切分,确定音频流中的潜在变化点。针对基于熵的音频切分的误检率,我们分别采用KL2距离和VQ聚类对预切分结果进行重估,去除潜在变化点中的大量“伪变化点”,进一步改善音频切分的性能。   针对大规模说话人注册库的应用环境,提出了基于FO相关图的说话人分类方法,尽管该方法在分类准确率和处理速度上优于传统的基于模型距离的说话人分类方法,但是仍然不能满足面向大规模说话人群的说话人检测/识别的实时处理要求。基于此,我们通过压缩计算参数的快速匹配算法有效的提高了说话人检测的处理速度。在面向大规模人群的说话人检测中,通过快速匹配算法来提高系统的处理速度,具有潜在的应用前景。   比较了当前流行的说话人识别模型的性能。结合FO特征与MFCC特征,构建了基于FO的分组GMM-UBM说话人识别器,并作了相应的参数优化。实验结果表明,基于FO的分组GMM-UBM说话人识别器具有良好的鲁棒性。   构建了说话人检测系统。分析了实际环境下的噪声消除和补偿技术,从实验的角度验证了各种噪声补偿方法的性能,并在广播音频流和电话对话语音下验证了该说话人检测系统的性能,给出了说话人检测的总体实验结果。
其他文献
巡视器就位探测任务规划是巡视器自主探测系统的重要组成部分,其作用是巡视器在规划探测任务时,保证巡视器机械臂满足不与探测环境和车体本身发生干涉的约束、机械臂位形切换
双容水箱液位控制系统实验装置是模拟工业生产过程中对液位、流量参数进行测量、控制、观察其变化特性,研究过程控制规律的科研产品,具有过程控制中动态过程的一般特点。 本
随着软件产业的蓬勃发展,人们越来越深刻地认识到软件度量的重要性。规模是软件的一个重要属性,是成本估计和生产率分析的重要参数,同时它也是软件项目管理所必须考虑的一个重要
随着计算机网络的普及和发展,网络入侵呈现出综合化发展趋势,入侵者在实施入侵时往往采用多种技术手段、进行分布式入侵,从而使得现有基于规则的滥用检测系统检测效率较低,相应误
由于酸碱中和反应中pH值呈现严重的非线性及大时滞,给pH值控制带来极大的困难,pH值一直被公认为最难控制的变量之一。 本论文对实验室酸碱中和反应装置的pH值和液位进行MIMO
目前基于静息状态(resting-state)功能磁共振成像(functional MRI,fMRI)的研究已经越来越多。这些研究绝大多数考察基于血氧水平(blood-oxygen level dependent,BOLD)的fMRI信
本论文是以实验室冰箱为研究对象,首先建立实验室冰箱的温度测量装置,采用C语言进行串口通讯编程并将采集的数据在计算机中进行画图分析处理;其次,采用机理建模法对冰箱的压缩机
随着科技的发展和社会的进步,板形控制越来越受到普遍的重视,实现板形控制的一个重要环节是板形的在线检测.为了提高控制系统的精度,降低企业生产成本,提高板带的质量,设计高
通过建立柴油机行业的敏捷制造模型,建立了敏捷制造的时间与费用关系,采用邻接矩阵理论解决了动态工艺路线问题。提出了基于AM理论的企业信息集成方法,解决了跨企业的信息集成技
学位