说话人识别算法研究及DSP实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:suease
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文对说话人识别算法进行了研究,主要对基于Mel倒谱系数的矢量量化方法以及说话人确认阈值的估计算法进行了深入的探讨;并在此研究的基础上,从集合的角度研究了开集说话人识别系统,提出了一种基于DTSV的开集说话人识别算法,同时利用DSP对该算法进行实现。设计和构建了基于DSP的说话人实时识别系统,实现了说话人的实时识别,该系统已经初步应用到楼宇单元门语音控制锁中。近年来,在生物识别技术领域中,声纹识别技术,即说话人识别技术,以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。人的声音中包含了各种信息,说话人识别是从说话人发出的语音信号中自动提取说话人信息,并对说话人进行识别的研究领域。说话人识别是一类特殊的语音识别,它并不在意语音信号中的语义内容,而只强调各个说话人之间的特征差异,希望从语音信号中提取说话人的个性特征。说话人识别是语音信号处理的一个分支,涉及到语音学、语音信号处理、模式识别与人工智能等学科,是跨学科的综合性应用研究领域。在军事、法律、银行等许多方面有重要的应用前景,近十几年来得到了迅速的发展。在信息领域,数字化是当今信息处理的主流。数字化的核心技术之一的数字信号处理技术(Digital signal process)----DSP技术已成为人们日益关注的并迅速发展的前沿技术,它已经成为一个新的技术领域和独立的学科体系,有着广阔的应用领域和市场,担负着数字化产业革命的重任。理所当然,DSP(digital signal processor数字信号处理器)是这场数字化革命的核心。可见,对说话人识别算法的研究以及算法的DSP有着重要的理论价值与应用前景。本文的主要工作及其内容安排归纳如下:全文共分六章。第一章回顾了生物识别技术、说话人识别以及数字信号处理器DSP的 <WP=92>发展与现状,提出本文的研究内容及主要工作。第二章介绍了语音信号处理的基础知识,说话人识别的基本原理以及主要方法,同时概括地介绍了利用DSP进行算法实现的软件基础。第三章对说话人辨认的方法进行了研究,主要介绍了基于Mel倒谱系数的矢量量化说话人识别算法。基于矢量量化的说话人识别,无需考虑复杂的统计模型和复杂的时间归整问题,其运算过程也较为简单,同时对于少量训练数据而言,采用矢量量化的说话人识别算法可以得到较好的识别结果。因此矢量量化在说话人识别领域有着广泛的应用。Mel倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)利用了听觉系统的临界带效应,描述了人耳对频率感知的非线性特性。利用Mel倒谱系数作为说话人的特征矢量,对整个算法进行了仿真实验,得到较好的识别结果。第四章对说话人确认中的阈值问题进行了研究,主要研究了基于频度统计法、失真范围法以及DTSV方法的阈值估计算法,并进行系统的仿真实验。同时对于基于先验阈值的估计算法,提出了一种阈值的在线更新方法,使其更适应于实际的应用。为了要将算法进行DSP实现,分析比较5种阈值估计的方法的可实现性,为算法的DSP实现打下了基础。第五章从集合的角度研究了开集的说话人识别系统,提出了一种基于DTSV的开集说话人识别算法,同时利用数字信号处理器DSP对该算法进行实现,并初步应用到楼宇语音单元门控制锁中。在算法的实现过程中,分别采用语音信号的LPC系数和Mel倒谱系数作为说话人的特征参数,给出了各部分程序的调试结果,对程序的有效性进行了验证。同时分析比较了选用不同参数,系统实现的部分指标。第六章对全文进行总结,指出今后的工作和待研究的方向。本文的主要贡献在于:(1) 搜集并整理了大量关于语音信号处理与说话人识别技术的资料与文献,并深入学习了数字信号处理器DSP的相关知识。(2) 在学习基础知识的同时,对基于Mel倒谱系数的VQ说话人识别算法进行了深入的研究,并对整个算法进行了系统的仿真。在实验的过程当中得到了许多有价值的实验结论和经验,为说话人识别算法的DSP实现打下了良好的基础。 <WP=93>(3) 对说话人确认的阈值估计算法进行了研究,比较了各种算法对系统识别率的影响。通过对各种算法的分析比较,找到一种可靠、有效又易于DSP实现的阈值估计算法。同时对于基于先验阈值的估计算法,提出了一种阈值的在线更新方法,使其更适应于实际的应用。 (4) 从集合的角度研究了开集说话人识别系统,提出了一种基于DTSV的开集说话人识别算法,同时利用DSP对该算法进行实现,并初步应用到楼宇单元门语音控制锁中。本文对以下几个在说话人识别算法以及算法的DSP实现中的待解决问题有一定的启发性作用:如何从集合的角度对开集的说话人识别系统进行研究,从而提高开集说话人识别系统的识别率。(2) 如何选择更可靠、更易于实现说话人识别算法,使其更有利于DSP的实现。
其他文献
在晚期非小细胞肺癌(NSCLC)中,表皮生长因子受体(EGFR)经典突变类型患者的治疗已从EGFR酪氨酸激酶抑制剂(TKIs)的使用中获益,而携带少见EGFR突变的非小细胞肺癌患者约占所有E
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
患者男性,55岁.2016年7月无明显诱因突然出现腹胀、腹痛伴便秘1周,服用泻药后症状无缓解,遂就诊给予灌肠处理后症状级未缓解,并持续加重.腹部CT示结肠睥区局部肠壁增厚,建议
本文通过对荣华二采区10
期刊
子宫平滑肌瘤是女性生殖系统中最常见的子宫肿瘤,一般见于30~40岁女性,组织学表现为良性,但是可以复发和转移,推测其中一些可能是激素诱导的多灶性平滑肌增生或肿瘤性平滑肌增
患者男性,46岁.左上腭包块1年,渐进性增大、疼痛加剧6个月.专科检查:左侧上腭可见一3 cm×3 cm大小外生性肿物,前界至左侧上颌B4水平,后界至上颌结节处,内界位于腭中线左侧,
新发现的中东呼吸综合征冠状病毒(Middle East Respiratory Syndrome coronavirus, MERS-CoV)能够引起人类严重甚至致命的呼吸系统疾病,其致死率超过SARS病毒(-10%),达到37%
本文通过对荣华二采区10
期刊
ASPM是常染色体隐性遗传性小头畸形疾病的主要致病基因位点,其功能是调节神经干细胞的分裂和增殖.研究证实,ASPM是肿瘤干细胞标记物,参与维持了肿瘤干细胞的特性;且在多种肿
摘要:词汇是组成语言的最基本材料,没有词汇也就无所谓语言,外语教学自然离不开词汇教学。全日制义务教育、普通高级中学《英语课程标准》(实验稿)在语言知识部分也对词汇教学提出了具体目标并进行了详细描述。学生不掌握一定的词汇量,就无法顺利进行听、说、读、写、译,就无法进行英语交流。学生掌握的词汇量越大,学习英语的效果就会越好。但很多学生因为记不住单词而失去了学习英语的兴趣,很大程度上也影响了他们学习英语