论文部分内容阅读
语者发现与跟踪技术作为说话人识别技术的应用之一,它解决的是在待处理的音频文件中的语者数目、语者身份、语音背景等都未知的情况下,检测和识别出谁在音频文件中的什么时刻说了话,实现对音频文件中的不同语者的语音的有效分割、检测和识别。语者发现与跟踪技术有着广泛的应用前景,例如,针对电话语音、新闻广播、会议等音频数据,利用该技术实现对音频数据中的语者的语音进行检测和跟踪,高效的提取语者的语音信息。语者发现与跟踪系统一般主要包括特征提取、语音检测、说话人分割、说话人聚类和说话人识别,其中特征提取、语音检测和说话人分割的性能直接影响着系统的性能。本文重点在以下方面进行了研究: (1)概括和归纳语者发现与跟踪系统的发展现状和技术基础。 (2)概括了说话人分割聚类常用的特征,重点研究了MFCC的提取过程及参数的设置,并引入短时能量和基音周期与MFCC融合,比较组合出的新的特征与MFCC的分割性能,选择出最佳的特征。 (3)概括了语音检测算法的常见技术,重点研究了基于统计模型的语音检测算法,提出了针对普通话的语音前端检测算法,实现对典型算法的改进和完善。在低信噪比环境下,语音前端检测算法能够有效的改善语音的前端检测错误。 (4)概括了说话人分割算法的常见技术,重点研究了基于度量距离的说话人分割算法,完成了对BIC分割算法和DISTBIC分割算法的对比,选择出最合适的分割算法。 (5)完成对语者发现与跟踪系统的设计与实现,系统的技术环节有特征提取、语音检测、说话人分割、说话人聚类、说话人重分割、说话人重聚类和说话人识别,分析了各个功能模块的实验结果及对系统性能的影响。