稳健语音特征和音频场景识别方法的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:moke707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频信号含有丰富的信息,并具有非接触性、自然性和采集设备成本低的优势,使得音频信号识别技术在实现人机交互和各种电子产品智能方面具有很好的应用前景。实际应用中,说话人语音不可避免地会受到开放环境的影响,从而降低说话人识别的准确率。稳健语音特征提取算法能有效降低噪声对说话人语音特性的影响,提高说话人系统的分类性能,因而受到广泛关注。作为音频信号识别技术的另一个分支—音频场景识别技术,可以使各类设备根据音频信息自动地感知环境特征,具有听觉智能性。当前,音频场景识别的问题己成为一个研究热点。在前人研究工作的基础上,本文对说话人识别中的稳健语音特征提取方法、音频场景识别中的特征选择方法和模型优化方法进行了研究,具体包括:(1)研究了一种基于最小方差无失真响应和感知特性的倒谱特征提取方法。作为梅尔频率倒谱系数的一种改进算法,该方法能有效解决梅尔频率倒谱参数在混有背景噪声的语音条件下系统分类性能下降的问题,从而提高了识别系统的稳健性。(2)给出一种基于局部判别基的特征选择方法。该方法采用两个判别准则对特征向量在类间的区分能力进行评估,按判别值大小进行排序,选取前N个特征向量组成特征子集。采用HMM分类器对选取的特征子集进行评估,对比不同N值对应的系统识别率,把最高识别率对应的N值作为最佳经验值。在模型训练和识别过程中,能够在线选取音频样本的特征子集。本文把基于局部判别基的特征选择算法应用于音频场景识别系统,通过对比实验表明,该方法能有效地提高系统的分类性能。(3)研究了一种基于支持向量机的隐马尔可夫模型优化方法。针对隐马尔可夫模型在训练类的参数时不具有判别力的问题,进行了改进。在改进方法中,首先训练连续隐马尔可夫模型参数,使用支持向量机对参数进行判别性训练,然后用训练得到的支持向量对原始模型参数重新估值,得到新的模型参数。通过改进方法与隐马尔可夫模型的对比实验,表明改进方法在一定程度上提高了音频场景识别系统的分类性能,实现了对隐马尔可夫模型的优化。
其他文献
期刊
配电网交流故障定位方法的思路是:线路出现单相接地故障以后,在停电离线状态下向故障相注入交流信号,然后携带手持交流信号探测器用二分法沿线路检测,直到找到故障为止。交流注入信号频率本文选择60Hz,相对与S信号注入法,称为低频交流注入法。通过本文的研究工作,取得了如下主要研究成果与结论:(1)首次将交流定位方法从经验提高到理论。(2)给出了交流信号源和交流信号探测器的设计方法。(3)探测器采用单片机C
直接数字频率合成(DDS)技术是一种全新的数字化频率合成技术,它是应用奈奎斯特采样定理把一系列数字量形式的信号通过DAC转换形成模拟量信号的频率合成技术,现已广泛应用在雷
随着电子计算机技术的迅速发展,计算机软件在人们工作、生活中扮演越来越重要的角色,因此保证软件产品有效工作即保证软件产品的可靠性,变得日益重要。在软件产品的开发过程
期刊
随着计算机与通信技术的飞速发展,信息网络几乎遍布了当今整个世界。信息的传递与共享与办公自动化紧密的结合在一起,自动化软件得到了广泛的应用。然而,人们在享受办公自动
利用视频影像测量技术获取海洋信息,有着重大的应用价值和广泛的需求,探索和发展海洋环境要素的视频监测技术,急需深入研究和突破信息获取的关键技术。本文以波浪和近岸信息
随着国家对煤矿资源的大力开发,意外事故时有发生,煤矿安全生产也变得尤为重要。要减少煤矿事故的发生,除了要加强管理和安全技术培训外,最重要的是准确有效的对矿井环境进行
目前常规的X射线检测系统中,射线机与控制端均采用电缆进行连接,大大降低了设备的灵活性,而射线机管电压管电流采取人工调节的方法也降低了设备的检测效率。通过对视频编码技