声纹技术研究

来源 :硅谷 | 被引量 : 0次 | 上传用户：guhiayan123

【摘要】

：

【作者】

：

姚明秋徐韩王芳

【出处】

：

硅谷

【发表日期】

：

2011年21期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：分类在说话人识别中的应用对于提高系统响应时间有非常重要的作用，对基频和共振峰进行研究，基频可以用于区分男声和女声，依据共振峰的幅值则可以区分成人和儿童，将这种分类方法应用于说话人识别中可以大大缩短识别时间。
　　关键词：说话人识别；分类；基频；共振峰
　　中图分类号：TN912.3 文献标识码：A 文章编号：1671－7597（2011）1110177－02
　　0 引言
　　语音是人类日常生活中用于交流的最重要的一种方式，语音信号包含的信息异常丰富，如内容、话者身份及情绪等。说话人识别技术是一种生物认证技术，利用说话人的声音信号同预先提取的说话人语音特征相比较，从而来确定或鉴别说话人身份。说话人识别不同于语音识别，两者识别的目的不同。语音识别是为了提取语音信号中包含的语义信息，在识别过程中应尽可能地将不同人说话的差异归一化；而说话人识别则相反，是忽略语音信号中的语义信息，突出包含在语音信号中的话者的个性特征，强调的是不同人之间的特征差异。说话人识别按其识别任务可分为两类：说话人辨认和说话人确认。本文所提到的说话人识别是说话人辨认，即是判断一段语音是哪一个人所说，是多对一的问题，而不是确定一段语音是否是某个人所说[1][2]。
　　每个人都有自己的发音器官，在声带和声管形状上存在着差异，在后天环境的影响下也会存在行为差异，如讲话时发音习惯的差异，包括方言、土语、抑扬顿挫等。这些差异都以复杂的形式反映在说话人语音的波形中，使得每个人的语音都带有强烈的个人色彩，这就是对说话人进行识别的客观保证。语音信号中包含的声纹特征、情绪、健康状况等都可用于说话人识别。
　　在说话人辨认中，随着注册说话人数的增加，一次辨认花费的时间会随之增加。很明显，一次识别需要将待测试的语音与所有说话人的语音模型进行一一匹配，然后找出与测试语音距离最近的话者模型所对应的说话人作为识别结果。这样，随着注册的说话人模型数越多，一次匹配所花费的时间越长，当注册人数达到一定数量时，系统就很难做出及时响应，这种情况下即便识别率再高也没有实用性。分类技术可以很好的解决这个问题，将说话人按一定方法分类，比方将说话人按男女分类，这样就可以缩短一半的时间。
　　1 特征参数分类方法
　　1.1 用基频分类
　　基音是发浊音时声带振动引起的周期性，基音频率是用于描述语音激励源特征的一个重要参数。基频的变化周期一般从50Hz到500Hz。男声一般是50Hz～300Hz，女声和儿童一般是100Hz～500Hz，每个人的不同声带结构而导致有不同的基频，理论上基频可以作为说话人识别的有效参数，但是因为基频的范围比较小，而且不同人之间的差距也不多，更重要的是基频受很多因素的影响，如情感、音调等，因而要得到精确的基频值很困难。
　　自进行语音信号分析研究以来，基音提取一直是一个重要的研究课题，但语音信号变化复杂，受声道影响及具有丰富的谐波成分，虽然目前已经提出很多方法，但是都有局限性，都不能代表不同说话人特点，不能适应不同要求和环境。目前用基频进行说话人识别，识别率很低。但是一般男声的基频比女声的要低，所以作为分类是很好的一个特征参数。
　　提取基频的方法有很多种。大致可以分为三类，波形估计法、相关处理法和变换法[4]。本文采用变换法提取基音周期，即将语音信号变换到倒谱域，利用同态分析方法将声道的影响消除，得到属于激励部分的信息，进一步求取基频。
　　只有浊音才有基音周期。发清音时，声门激励是能量较小，频谱均匀分布的白噪声；发浊音时，声门激励是有一定周期的冲击序列，这一周期即为基音周期。
　　一个周期冲激的有限长度序列，其倒谱也是一个周期冲激序列，如下：
　　
　　
　　其中，N是正整数，是振幅因子，是基音周期。
　　倒谱域上周期不会发生变化，且振幅随着i值的增大而衰减，衰减速度比时域上快[5]。这样便可用倒谱法提取基频并效果比较好。
　　本文实验环境是Windows XP系统，MATLAB7.0开发平台，实验所用语音数据采用Cool Edit Pro进行录制，采样频率16000Hz，采样精度16位，单声道，均说普通话，每人录7句话，分别有元音、辅音、句子、英文、数字。
　　表1倒谱法提取的语音信号的基频
　　
　　实验结果表明，不论说话人说话内容是什么，女声的基频在200～350Hz之间，男声在100～200Hz之间，并且女声和男声都是按年龄从小到大，可见基本上年轻的基频比年长的高，由此可以以200Hz为界，将说话人分为男声和女声两类，在进行说话人识别时，先提取语音的基频，然后看结果是200Hz以上还是以下，然后再进一步进行模型匹配或另外的分类判断，这样就可以节省一半的识别时间。
　　1.2 用共振峰分类
　　共振峰是反映声道谐振特性的重要特征，它代表发音信息的最直接的来源。共振峰信息包含在频谱包络中，一般认为谱包络中的最大值即为共振峰，要想提取共振峰就要估计频谱包络。共振峰与基音提取类似，在估计过程中受很多问题的干扰，虚假峰值的出现是相当普遍的现象；相邻共振峰的频率可能会靠的太近而难以分辨产生共振峰合并；高音调语音的谐波间隔比较宽，从而为频谱包络估值提供的样点就比较少，所有频谱包络本身的估计就不够精确[1]。
　　目前用于提取共振峰的方法是倒谱法和线性预测法[6]。共振峰通常被定义为声道脉冲响应的衰减正弦分量。提取共振峰的一个主要问题是声道脉冲响应不是直接可测的，语音信号都是全极点模型和准周期声门激励函数的卷积，所以分析时必须解卷积，将脉冲响应和激励函数分开。
　　本文用线性预测分析对共振峰进行估计，采用峰值检测法[3]。用线性预测系数分析共振峰速度比较快且效果比较好。先求出线性预测系数参数表述的声道功率函数，由该函数求出频谱，根据频谱值求出共振峰峰值、频率和带宽。
　　采用目前方法提取的共振峰不够精确，当相同人说不同的话时，各共振峰值会发生改变，即便变化值在一定范围内，也会包含别人的共振峰值，但是理论上男声、女声和儿童的共振峰值是6:7:8的关系，所以一般儿童的要比成人的高，可以用共振峰将说话人中成人和小孩分开。
　　表2语音信号的共振峰
　　
　　从实验数据上看，用目前的共振峰提取方法不能得出6:7:8的关系，但是从F1还是可以看出儿童比成人的要高。所以可以将共振峰F1的参数值作为区分成人和小孩的依据。
　　2 结论
　　说话人识别在实际应用中，系统的实时性相应至关重要，一个话者身份的识别时间不能太长。在保证识别率比较高的情况下，还要考虑识别时间的长短，如果识别响应时间超过了所能容忍的限度，即便识别率再高也不能满足要求。分类技术就可以在保证识别率的情况下尽量缩短识别时间。基频可以区分男女声，共振峰可以区分成人和儿童。待识别人在与模型进行一一匹配之前先进行分类，就可以大大缩短识别时间。可以先用共振峰F1的值将注册的说话人分为成人和儿童，再依据基频值将各类中的说话人分为男和女，这样在识别过程中可以一级一级判定下去，然后再与所属类别中的说话人模型依次匹配，而不必与注册的所有的模型都匹配一遍。这种方法就可以尽量满足系统的实时性要求。
　　
　　
　　参考文献：
　　[1]易克初、田斌、付强，语音信号处理，北京：国防工业出版社，2000.
　　[2]陈永彬，语音信号处理，上海：上海交通大学出版社，1991.
　　[3]张东阳、张国杰，说话人识别系统研究[J].通信技术，2007，40（11）：
　　356-358.
　　[4]M. M. Sondhi. New Methods of Pitch Extraction. IEEE Trans. AU, 1968, 16(1):262-266.
　　[5]Higgins A L,Bahler, L G.Text-independent Speaker Verification by Discriminator Counting. In: proceeding of 1991 IEEE International Conference on Acoustics,Speech,and Signal Processing, Toronto,Canada: IEEE Press,1991,1:405-408.
　　[6]R.W.Schafer, L. R. Rabiner. System for Formant Analysis of Voiced Speech. J.A. 1970,47(2):643-648.
　　
　　作者简介：
　　姚明秋（1985-），女，河北科技大学研究生学院通信与信息系统专业，数字信号处理方向，从事信号处理研究。

其他文献

VTS系统实现海事监管可视可听可控

经过近30年的发展，我国VTS系统建成并对外运行30个VTS中心，基本实现了全国沿海主要港口、重要水道和长江干线南京以下水域的全方位覆盖，实现了海事监管的“可视可听可控”。在今后一段时期，VTS科技信息化和管理规范化引领海事现代化，将作为海事科学发展和持续发展的紧迫任务。　　据了解，目前我国VTS规模总量已占世界的近三分之一，VTS监管水域达到73620平方公里，绝大部分VTS系统设备已经达到国

期刊

中国4G网络更近一步 TD-LTE技术面向世界等

中国4G标准　　LTE是3G和4G之间的一种过渡性移动通信技术。由于技术差异、使用频段的不同和厂商利益等因素，全球LTE主要分为FDD（频分双工）和TDD（时分双工）两种方式，但前者的标准化、产业化和支持阵营相对更强大。　　LET技术应用　　在现实生活当中，4G网络生活给我们日常生活中带来了翻天覆地的变化。一个具有LTE技术的网卡可以轻松带动20台笔记本同时上网，并且同时可以在线高清视频。给我们的

期刊

超材料试产线落户一高新区谋产业升级

本届高交会龙岗区参展企业超过90家，比上一届增加近20家，参展产品有400多件。　　第十三届高交会上，龙岗以“促进国际创新合作，加快发展方式转变”为主题，上百家企业在会展中心秀“绝活”　　28个项目集体获授科技创新奖，战略性新兴行业企业纷纷入驻。正在举行的第十三届高交会上，龙岗以“促进国际创新合作，加快发展方式转变”为主题，上百家企业在会展中心秀“绝活”。深圳市委常委、龙岗区委书记蒋尊玉，区长姜建

期刊

NET新特性

摘要：主要目的是研究.NET中dynamic的优缺点，然后进行测试，并对它的功能和性能进行科学地分析和评判，最后提出使用dynamic的合理化建议。　　关键词：动态；反射；对象；静态类型　　中图分类号：TP311 文献标识码：A 文章编号：1671－7597（2011）1110032－02　　1 dynamic的基本理论　　C# 4.0之前，每当声明一个变量时，都有一个具体的类型与之对应。因为

期刊

现代城市路灯照明节能技术的应用

摘要：随着我国经济的不断发展，人们生活水平的不断提高，人们对生活环境的要求也不断提高。现如今，城市路灯照明已经成为城市规划、建设的一个重要组成部分，也是城市基础设施建设的一项重要工作，它关系到现代化城市的创建，也体现现代化都市文明的不断进步，从我国现代化城市路灯照明现状入手，结合自身在实际道路节能照明工作中的一些经验和认识，探讨现代城市路灯照明节能措施。　　关键词：城市路灯照明；节能；绿色照

期刊

航空城空间结构规划模式探讨

摘要：立足于航空城快速发展这样一个大背景，以天津航空城为实例，探讨天津空港经济区向航空城转变的空间模式选择，促进天津空港区域发展，从国内外航空城产业空间布局的一般规律入手，结合航空产业特点，探讨与其相适应的航空城空间结构规划模式。　　关键词：航空城；航空产业；空间布局规划　　中图分类号：F562.8 文献标识码：A 文章编号：1671－7597（2011）1110040－02　　随着经济全球化

期刊

SDH设备在桂林本地传输网中的运用

摘要：主要介绍桂林空管所属的SDH设备的结构，原理，功能，并结合实际阐述SDH设备在桂林空管传输网络中的应用。　　关键词：传输网；SDH；桂林空管　　中图分类号：TN915.11 文献标识码：A 文章编号：1671－7597（2011）1110110－01　　0 引言　　SDH是一种较为新型的传输设备，由于它具有传输容量大，速率高，数据传输严格同步等诸多优点，目前广泛使用于民航空管系统的通讯传

期刊

Bp神经网络在实验数据弥补方面的应用

摘要：充分利用BP神经网络在数据拟合与预测方面的成熟应用，将这一理论应用到实验数据的弥补中，通过建立BP神经网络拟合已知实验条件和实验结果之间的数理统计关系，从而弥补出其它实验条件下的实验结果，在提高网络泛化能力的基础上，通过多个训练较好网络的预测值之间的比较择优选取预测值，从而提高预测数据的可靠性，节省具体实验的时间和成本。　　关键词： BP神经网络；数据弥补；初期终止　　中图分类号：R91

期刊

MATLAB-GUI在笼型异步电动机仿真中的应用

摘要：利用MATLAB的M文件编程实现三相笼型异步电动机的通用仿真程序，然后利用MATLAB-GUI完成界面的设计，从而开发仿真软件，该仿真软件具有通用性好、运行速度快、美观大方以及便于二次开发等优点，为电机的电磁设计和加工制造提供帮助。　　关键词： MATLAB；GUI；电磁设计；性能仿真　　中图分类号：TM343 文献标识码：A 文章编号：1671－7597（2011）1110125－02　

期刊

oracle数据库的安全性提高策略

摘要：随着计算机技术和网络技术的发展，数据库系统越来越多的进入各行业各领域，成为各单位处理数据的重要工具，在众多的数据库系统中，ORACLE数据库以其强大的功能，有效的安全性和完整性控制、分布式数据处理模式等特点而被众多企业、部门所采用，作为一种大型数据库系统，ORACLE数据库主要用在处理大批量数据和网络运用中，在数据库系统被大量采用的同时，数据库安全性问题也越来越突显在人们面前，数据库数据丢

期刊

声纹技术研究

与本文相关的学术论文