基于非线性理论和信息融合的说话人识别

来源 :上海大学 | 被引量 : 0次 | 上传用户:zydolphin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是一种生物特征识别技术,它是指机器通过说话人的语音自动识别出说话人的身份。在信息接入服务安全控制、司法鉴定、金融服务、电子侦听和人机界面智能化等领域这项技术具有良好的应用前景。说话人识别主要经过三个阶段来实现——提取特征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的一步。如果不能提取充分反映说话人个性特征的特征量,后两步的优化就很难奏效。现有特征提取方法大都是建立在把语音信号当作短时平稳信号的认识基础上的,这些特征用于说话人识别取得了较好的效果,但是人们在设法进一步提高系统的识别率和鲁棒性时发现了它的局限性。针对这种情况,本文基于当前非线性动力的混沌、分形数学在许多物理现象特别是语音信号处理中的应用,提出采用动力系统模型分析语音信号,抽取混沌、分形特征描述语音信号,并且将这些特征应用于说话人识别,探讨非线性参数区别不同人的声音的有效性,以进一步提高说话人识别的正确识别率。本文首先深入分析语音信号的混沌机理。由自相关函数确定延迟时间,用虚假近邻法确定嵌入维数,据此重构相空间。根据实验数据计算汉语38个音素的最大Lyapunov指数,其数值均为正值,验证了语音信号的混沌性。在此基础上研究非线性动力学在说话人识别中的应用,取得的创新研究成果可归纳如下:(1)基于Kolomogorov熵和广义维数、关联维数之间的联系,利用GP相关算法实现语音信号关联维数的计算,并得到Kolomogorov熵和广义维数的计算方法,使语音信号的各种非线性参数的计算统一起来。(2)提出用广义维数Dq为说话人的特征参数,进行说话人识别。广义维数作为多维矢量比其他研究成果中使用的单一的一维分形维数更详细地描述了语音信号的非线性特性。在与文本无关的实验中,对Dq采用马氏距离,并结合其一次差分和二次差分,明显提高了说话人辨认的正确识别率,表明了广义维数作为说话认识别特征的有效性。还进一步讨论短时帧长度对估计Dq的影响,适当增加帧长使识别率得到提高。与采用传统特征参数的说话人识别进行了对比实验,显示出广义维数能够区分不同的说话人,可与传统参数结合起来共同完成识别任务。
其他文献
本文以可证明安全性的理论与技术为基本工具,以密码学领域的几个热点应用为导向,设计并分析了一批具有某些特殊功能的数字签名方案,具体成果如下: 1.第2章以双线性对为工具构造
国企党建“福建样本”福建省国资委代表省政府依法履行出资人职责的企业17家,权属企业1613家,企业党组织有2369个,党员48356名。为充分发挥企业党组织的堡垒作用,激发广大党
从农村青年到亿万富翁,从30岁被通缉到31岁被捕,当年全国最大的鞋业连锁公司——百信鞋业的创始人李忠文,演绎了一场戏剧般的人生.
借鉴径路优化方法,细化考虑车站接发车能力、始发终到能力及动车运用所存车能力等限制因素,在多商品流模型的基础上添加0-1决策变量,建立高铁枢纽车站分工优化模型,寻求高铁
德国的宏观经济最近有所好转,失业率下降了一些,失业人口降低到450万。德国经济改善的主要原因在于世界经济增长迅猛,特别是中国、印度的快速增长导致对德国出口产品的需求增加,
当今的古籍编辑活动已发生根本性变革,古籍编辑不再是单一部门的职能,而是与整个古籍编辑机构上下游相关的工作。变化要求古籍编辑探求新理念——全编辑理念。古籍全编辑理念的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
摘要:高职药学专业无机化学的课程改革势在必行。“化学基础模块 专业需求模块”的课程体系改革能够提高高职教育人才培养质量,在此基础上提炼出的知识点和技能点以微课程的形式应用于教学也符合高职学生的学习特点。文中阐述了微课程的概念及特点,高职药学专业无机化学微课程开发的意义及开发流程和制作方式,在此基础上进行反思与展望,期待微课程能为教育事业增添新的活力。  关键词:高职药学;无机化学;微课程;设计;开
支持综合业务应用的下一代网络(NGN)的出现,要求在IP承载网上提供包括传统电信业务在内的多业务应用。NGN承载层与业务应用层间相互独立、缺乏有效协商的致命缺点使传统实时
目前,我国氯碱化工行业生产发展迅速,产能过剩,技术水平不高,产业集中度不高。因此各企业应该科学设置组织结构;加强人力资源建设,提高管理水平;要注重延长产业链;激发自身的