鲁棒性的与文本无关的开集说话人辨识方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:oyjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类交流最重要的工具,作为语言载体的语音信号在不同的层面包含了大量的信息。其中与说话人相关的信息可以辨认说话人是谁或者确认此说话人是否为所声言的说话人。如今自动说话人识别技术在低噪声、低失真环境下的性能已经相当的高,但实际环境中无处不在的噪声带来了训练模型和测试语音之间的失配,这使得噪声环境中说话人识别系统的识别率急剧下降。因此提高噪声环境下说话人识别系统的性能是说话人识别系统从实验室走向实用的关键,也是当前的研究热点。 说话人识别技术主要包括特征提取和模式识别两大模块,本文分别从人的发音器官和听觉器官研究了特征参数的提取和抗噪性能,并对当今主流分类器做了深入的研究。所有工作主要针对噪声环境下文本无关的开集说话人辨识展开。 在预处理阶段考虑到广泛应用于编码理论的信息熵代表信源的平均不定性导致语音的熵必定和噪声的熵存在较大差异,本文采用了基于熵函数的语音端点检测方法,试验表明谱熵法在信噪比较低和非平稳噪声下具有良好的性能,并进而针对本文提出了一种动态阈值的方法检测语音端点。 考虑到语音在整个频带上是非均匀分布的,本文采用多子带特征提取,并在每个频带内使用基于Teager能量的子倒谱特征。并提出了一种支持向量机与高斯混合模型相结合的系统。首先用支持向量机对每个子带分别决策,筛选出训练集之外的说话者,然后对集内人用判别结果归一化值进行特征加权以突出对识别结果影响较大的子带特征。试验结果表明,本文系统在低信噪比环境下仍然具有较好的识别性能。
其他文献
基于位置感知的移动服务(Location Based Service,LBS)依赖于用户的位置。比如线上到线下服务(Online To Offiine,O2O)需要提供位置定位,来给用户提供方便快捷的服务。目前已有
无线传感器网络是一种全新的信息获取、处理和传输技术。由于无线传感器网络具有节点的电源能量和硬件资源受限的特征,设计能量高效的通信协议是无线传感器网络研究中具有挑战
建筑用能是能源消耗的主要组成部分,同时建筑节能也是节约能源的重要领域,建筑能耗统计数据是建筑节能工作的重要基础。天津工业大学被评为国家住房和城乡建设部节约型校园示范
随着网络、通信技术和Internet的飞速发展,分布式系统的规模和范围已经发生巨大的改变,需要一种更灵活的通信机制来满足这些分布式系统新的应用形态。发布/订阅机制的时间、空
目前,实时系统已广泛应用在军事和民用领域。随着实时系统应用的不断深入发展,出现了分布式实时系统。分布式实时系统可划分为本地实时处理和实时通信两部分。本地实时处理涉
几乎所有企业应用软件的开发部涉及数据的存取、更新等操作。目前的解决方案大多采用关系数据库存储数据,并采用面向对象的方法为企业应用领域建模。但是对象模型和关系模型之
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有
随着因特网和通信技术的发展,电话服务的分组化已成为电信网络演进的主流方向,VoIP技术正在经历前所未有的迅速发展。各种VoIP产品大量推向市场,改变着人们的生活方式;同时,V
由于多目标遗传算法能够通过一次运行找到一组多目标优化问题的Pareto折衷解,所以受到了国内外众多研究者的广泛关注。一个多目标遗传算法的优劣主要看三个指标:解集收敛程度
进化策略是借鉴生物进化的思想,在现代遗传学的启发下,发展起来的一种启发式随机搜索优化方法。进化策略作为一个新的交叉学科,目前已发展成一种自组织、自适应的综合技术,广