说话人识别中特征参数的提取及优化研究

来源 :三峡大学 | 被引量 : 7次 | 上传用户:chenqiang_11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是语音信号处理一个研究热点。特征提取和模式匹配是说话人识别技术的关键,特征选取与优化处理能够提高识别率,本文所做的主要工作如下:一、在语音信号前端处理时,为了提高在强噪声环境下语音端点检测的准确度,提出基于子带二次谱熵的端点检测算法。该算法把子带二次谱熵作为端点检测新的特征参数,将有限状态机判别方法与子带二次谱熵相结合,有效地解决单门限法易出现的两类误判。与传统的短时能量与过零率结合法、谱熵法两种方法相比,基于子带二次谱熵的端点检测算法具有准确性高,抗噪性强等优点。二、提取基音轮廓特征时,分析了现有功率谱二次处理基音检测方法的不足:对于过渡语音,易产生半频或倍频误判;噪声干扰下,检测结果易失真;清、浊音的判断方法复杂。针对不足,提出一系列改进方法:时域非线性处理,频域加窗滤波,简化清、浊音判断。仿真实验结果表明,无论是高信噪比还是低信噪比语音,改进的二次谱法较传统的平均幅度差函数(AMDF)法和二次谱法更能清晰、准确地检测出基音轨迹。三、提出了新的特征组合参数:基于人的听觉特性的Mel频率倒谱系数(MFCC)参数、基于发音生理特征的基音轮廓特征以及衍生的基音周期一阶差分、基音周期变化率作为说话人识别系统的特征参数,实验结果表明,使用该参数较单独使用MFCC参数的说话人识别系统识别率提高了2%-3%。四、为了提高MFCC作为说话人识别特征参数的识别率,提出了基于Fisher比及相关距离的MFCC提取方法,并根据Fisher比及相关距离的值,采用两种方法对MFCC参数分析:降维、窗函数倒谱提升。仿真实验表明:降维方法能使识别率提高10%-15%;新的特征加权的识别率较传统的raised-sine和half raised-sine窗提高了10%-20%。本文主要对说话人识别的特征提取与优化处理进行研究。在识别的前端,使用了较准确的端点处理方法;选取了基音轮廓、MFCC组合特征,并给出了MFCC优化方法。本文的研究工作有助于说话人识别率的提高,有助于特征提取与优化方法的进一步发展。
其他文献
太原理工大学研发的板式数字流量计是直接数字取样的数字传感器。为了适应明渠、暗渠及各种污水排放口的计量应用,解决在不同使用环境、使用领域中检测精度等问题,提出了实现流量计智能化的设计方案。本文综合分析了污水计量的现状、智能仪器及流量计的发展现状及趋势,在深入学习了板式数字流量计的检测原理后,结合当前智能仪表的技术要求,采用软硬件结合的方式设计并完成了流量计的智能化。论文主要研究以下内容:(1)研究学
结晶器是连铸生产工艺中最主要的生产设备。结晶器的振动形式以及如何控制结晶器的振动是获得高质量铸坯,促进连铸技术向前发展、更新换代的先决条件。传统的结晶器振动采用
随着经济全球化的不断发展,世界人口数量的日益增长,人类探寻与挖掘新能源的方向已经逐渐从陆地资源开始转向了海洋资源。作为探索未知海洋环境的主要工具,水面无人艇的智能
电子节气门控制系统是用来调节发动机进气量的装置。电子节气门控制系统以传感器组和执行器取代了传统节气门的机械连接,开度在任何工况下都由驱动电机控制。它能有效地提高汽
随着社会经济的迅速发展,金融服务体系的不断扩大,金融服务需求日益复杂化的多元化。某些金融业务办理时间长,例如、储蓄卡开卡、电子渠道签约、CTS证券三方委托签约等业务只
在计算机技术,物联网技术快速发展的今天,传统的人工奶牛场的生产管理越来越体现它的弊端。采用计算机技术完成对牧场的生产管理,自动化的完成牧场信息的采集和处理,是现代化
无线传感器网络(WSN)是当前国内外传感器技术领域的热点研究课题,在军事和民用领域有着非常广阔的应用前景。可靠性是网络性能的一个重要指标,在对可靠性要求较高的应用领域,
随着计算机技术的不断发展,用智能算法处理大数据已经成为了一种必然的趋势。支持向量机是一种被广泛应用的智能算法,因为其具有优秀的泛化能力,小样本决策能力和处理非线性
生物行为感知的目的在于获取人体运动的行为线索,并对人体动作行为进行分析与理解,在智能监控、人机交互和智能环境等领域发挥着重要作用。   生物行为特征获取是运动行为感
随着我国经济的持续发展,对电力和热力的需求不断增长。因而,对煤炭需求量越来越大,由此产生的粉煤灰量也日益增加。现在,全国每年的粉煤灰排量已达到1.2亿吨之多,我国已成为