分形理论在语音信号端点检测及增强中的运用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：zwj1234

【摘要】

：

【作者】

：

曾剑飞何律君

【出处】

：

电脑知识与技术

【发表日期】

：

2018年2期

【关键词】

：

分形理论语音信号端点检测增强

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：文章针对语音信号端点检测与增强中分形理论的运用，从分形理论特征、实际内容以及实验几个方面展开了分析，目的在于总结最为合适的端点检测方法。
　　关键词：分形理论；语音信号端点检测；增强
　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）02-0154-02
　　近几年，我国语音信号处理技术逐渐提升，尤其是低信噪比基础上的语音信号处理，已经在相关领域成为一个主要的研究课题。对于此，诸多专业人数已对其展开了研究，并且提出了一些带噪语音信号处理技术。在语音信号处理技术发展的影响下，非线性处理方式也得到重视，对带噪语音信号进行处理的过程中，语音信号、噪声信号模型参数主要是以相应的语音段、噪声段得到明确。所以在判断语音、非语音段方面，则成为语音处理系统中一个最为重要的问题，也就是所谓的带噪语音信号端点检测。
　　1 分形理论概述
　　针对分形理论，以往的理解都带有一定的不规则性，一般是对“因为整体通过某种形式相似的部分构成的一类形体”、“Harsdorff维数超过拓扑维数集合”进行表示[1]。但是，在某一角度来说，并没有专业学者对分形理论进行严格的定义，只是简单的提出了描述性的说法，即带有某些性质的集合，其中主要体现了以下几个特点：第一，分形具有自相似性；第二，分形结构的精细性：第三，分形维数大于其本身拓扑维数；第四，分形可以利用迭代递归形成。具体如下：
　　1.1 分形具有自相似性
　　所谓自相似性，即整体和部分，不管是形态、作用，还是信息，都体现了非常强的相似性。对分形对象集合尺寸进行合理的缩小或扩大，也不会对原结构造成改变。
　　1.2 标度带有不变性
　　标度具有不变性，这一点是分形集独有的特点，指不管怎么变形测量对象尺度如何改变，都不会使测量对象性质出现变化[2]。然而，需要将数学模型排除在外，针对带有实际分形集的测量对象，这种标度不变形只能够在一定范围内加以使用。通常来说，标度不变性适用空间被成为分形体无标度区间，相关人员需要根据研究对象所体现的实际性质，对判定无标度区间切实范围进行明确。
　　1.3 分形维数
　　形成分形维数主要是利用分形标度关系，获取实际的定量数值，这样一来能够将普通拓扑集维数是整数这一问题进行拓展，使维数有整数范围扩大到分数。同时，其中也体现了分形维数的其他特点，重点表现为以下几个方面：第一，分形维数与尺度之间无联系；第二，分析维数本身是相对量；第三，分析维数大小充分直接关系到空间中轮廓的不规则性、繁琐性，以及在空间内的满足程度。一般来说，维数越小，那么所体现的细节越少，其位数也就越大。
　　2 分形理论在语音信号处理中的运用
　　将分形理论运用于语音信号处理，主要分为三个部分，即语音分割、语音合成和端点检测。那么接下来就对这三个部分进行简要分析。
　　2.1 语音分割
　　因为人耳的听力在语音高频部分所体现的分辨率，一般会低于低频部分，但是清音段是语音高频非常关键的构成部分，在听觉角度分析，其实并不存在严重的影响，因此，相关人员需要在语音信号处理期间，定期对语音实施清浊音分割[3]。这二者之间本身体现了一定的不规则性，相关人员可以对分维值进行测量，以此对清音、浊音进行分割。
　　2.2 语音合成
　　在语音信号处理中，语音合成也是其中必不可少的内容之一，为未来的发展直接关系到语音编码。因为语音信号本身带有自相似性特点，其主要表现在其中某一结构特点处于不同时间、空间尺度中，带有相似性。尽管语音信号时域波形体现了分形的特点，但是却并非是完整的分形，通常只是在某一领域中出现分形特点。根据这一点，可以按照IFS 理论、拼贴定理对其进行研究与讨论，对语音信号进行划分，使其成为不重叠小区间序列，在这之后，便可以得到随意一帧IFS 三个参数，这样一来便可以对数据进行压缩。相关人员对语音进行合成期间，使用已经得到的 IFS 参数，将其重复迭代，直至收敛到 IFS吸引子为止，如此便可以获取需要的语音信号。
　　2.3 端点检测
　　所谓端点检测，即针对初始声音信息数据中所包含的纯粹语音段，对局部进行准确的定位，从而获取需要的语音单位起止点，这一点也是本文分析与讨论的要点。通常，所获取的语音单位并不局限于一点，既可以是词，也可以是音节和音素等。对端点进行检测时，因为其本身是语音信号处理这一工作的重点，所以需要保证其准确性，这也与最后语音特征的提取、可行性的体现有直接关系[4]。通过实际实践可知，其实两个相邻的音素分维值之间，带有好很大的差异性，分维轨迹也可能会出现突变的现象，针对这一点，相关人员也要按照这一特点，对相对门限值进行确定。若其中一帧语音分维值相比这一相对门限要低，那么便可获取这一帧起始语音和这一帧之前的语音，了解到这二者音素不同，这样一来便完成了语音音素分割，进而实现对端点的有效检测。
　　3 语音信号短时分形维数计算
　　分形维主要是对分形特点进行描述的参数，同时也是分形信号中十分关键的特征参数。通过分形方法的运用，能够使维数由整数扩张至分数，这也将传统拓扑维数是整数的限制打破。对于分形维的定义其实比较广泛，一般比较常见的主要有以下几种：计盒维数、关联位數、信息维数。本文主要以计盒维数为例展开计算。
　　对于计盒维数的定义，相关文献中对其进行了规定：n维欧式空间子集F的计盒维数DB，具体定义如下：
　　[DB=linδ→0lnNδ（F）ln（1/δ）]，[log（Nδ（F））∝DBlog（1/δ）] （1）
　　在公式（1）中，[Nδ（F）]代表以边长为[δ]的网格对F需要的最小正方形数量进行覆盖。实践过程中，一般可以利用多点直线拟合的方式对DB进行计算。公式如下：　　[DB=i=1MlogNδi（F）i=1Mlog（1/δi）-Mi=1M（logNδi（F）log（1/δi））i=1Mlog（1/δi）2-Mi=1M（log（1/δi））2] （2）
　　在公式（2）中，[δi]代表M变化的尺度，i=1，2，3，…，M。
　　对公式（2）进行分析，使尺度变化是[δi 1]-[δi]=[δ]（[δi]=i[δ]，i=1，2，3，…，M），将其带入到公式（2）中，从而获得公式（3）：
　　[DB=MI=1MlogNδilogi-i=1MlogNδii=1MlogiI=1Mlogi2-MI=1M（logi）2] （3）
　　4 带噪语音信号端点检测
　　对带噪语音信号端点进行检测，可以先假设x（i）为带噪语音信号时间序列，s（i）、n（i）则是语音信号、加性白噪声时间序列，以此便可以得出信号模型，即
　　[x（i）=s（i） n（i）] （4）
　　对语音端点进行检测主要是为了在数据x（i）的测量过程中，对语音段s（i）起止点进行判断[5]。因为语音段中，带噪语音信号x（i）体现了规则性和周期性的特点，换而言之，即语音段信号分形维维数与非语音段分形维二者相比较，前者比较小。所以，其实可以通过信号短时分形维数变化状况对语音信号端点进行检测。
　　在实际仿真实验中，主要使用的是之前完成录制的语音信号“你好”，采样频率为22050Hz，所有样本都是以16bit实现量化。在10～20ms期间，语音信号十分稳定，因为后期需要对计算量进行简化，所以将帧长控制在300点，所有相邻帧之间无重叠，共计100帧，且有分帧需求时主要以矩形窗为主。通过实际实验可知，录制好的“你好”语音波形中，已经被加性被噪声所污染的语音信号所体现的信噪比为0db，带噪语音信号分维值中，可以清楚地了解到，噪声段与语音段交界处的分维轨迹有突变点。正因为如此为带噪语音信号端点检测提供了便利。通过试验也可以了解到，噪声段分维值通常要大于语音段分维值。
　　5 以端点检测为前提的谱相减语音增强方式与仿真结论
　　5.1 以端点检测为前提的谱相减语音增强方式
　　在语音信号处理和识别系统中，语音增强是其中非常关键的构成部分，进行语音增强，主要是为了将语音质量进行提高，将语音汇总的噪声消除，使语音更加自然。谱相减法和改进型方式因为其本身的计算量比较小，在实际计算过程中比较容易实时实现，所以在语音增强工作中十分常见。但是使用当前所现有的谱相减法对语音信号进行处理的过程中，有时信号处理的效果十分不理想，特别是信噪比低的时候，效果更差。一旦傅立叶出现反变换，那么便会在个别频带处出现残留的噪声。为了将这一问题合理解决，需要总结之前工作的经验，并且综合考虑其他带噪语音信号端点检测方式，以此提出以端点检测为前提的谱相减语音增强算法。
　　对于语音段、噪声段交界处可以使用分形维进行检测，因此针对带噪语音信号便可以实现分段处理。
　　[|S（ejω）|γ=X（ejω）|γ-α|N（ejω）|γ，当|X（ejω）|γ-α|N（ejω）|γ>β|N（ejω）|λ时β|N（ejω）|γ，其他] （5）
　　在公式（5）中，[X（ejω）]、[S（ejω）]、[N（ejω）]是观测信号x（i）、s（i）、n（i）在FFT变换之后，从而获得的数据，α、β使经验数值。针对噪声段而言，为了能够将噪声有效抑制，需要取比较大的α值，将β=0。针对语音段而言，需要在保证语音不失真的基础上，尽最大可能抑制噪声，如此一来，便要取比较小的α值，相反β值要比较大。
　　5.2 仿真结论
　　此次方针，依然使用之前“你好”你好，是两个发音？
　　根据谱相减法原理流程处理带噪语音信号。选择适当尺寸的窗、α、β、γ，针对噪声谱要按照之前使用的端点检测法，对噪声段平均值进行检测。经过反复几次仿真试验可知，对语音段进行处理时，分别将α、β、γ数值设置为1.5、0.01、1，而窗函数则依然为直角窗，将每段噪声的长度设置为帧长度。
　　通过对仿真试验最终呈现的效果可知，带噪语音信号的RSNR是0，并且通过这一实验证明，端点检测法体现了非常好的效果，增强之后的语音信号在包络形状上，非常完整的维持了原来的语音信号特点，并且将信噪比提升。通过处理前后语音信号信噪比的对比分析可知，一旦带噪语音信号RSNR为-4db，那么所提出的所有方法依然适用于语音信号增强。
　　5.3 实验结论
　　在低信噪比环境之下，对语音信号端点进行检测，并且完成语音增强，是语音信号处理工作一直以来需要解决的问题之一。以往对这两点问题进行解决时，需要是以高信噪比为前提，进行语音信号端点检测以及增强，这种方式无法满足现如今所体现的技术需求。基于此，通过对传统检测方法的分析，在分形维、谱相减两种方法的基础上，提出了新的语音信号端点检测与增强方法，并且将此方法进行仿真实验，实验结果表明，这一方法的可行的，且实验过程中涉及的计算量也比较合理。所以实用价值比较高。然而这一方法在使用的过程中，需要端点检测保证非常高的准确性，一旦信噪比不足-5 dB，所体现的端点检测最终效果准确性可能降低，进而对增强之后的语音效果造成影响，关于这一问题还需要在日后的工作中继续深入研究。
　　6 结束语
　　综上所述，在语音信号端点检测及增强中运用分形理论，可以有效减少计算量，但是相应的也对准确性提出了要求，要体现良好的运用效果，依然需要深入分析。
　　参考文献：
　　[1] 刘永俊，张立飞，刘巍.面向噪声环境下医疗语音信号端点检测方法[J].常熟理工学院学报，2017，31（4）：75-79 85.
　　[2] 赵益波，蒋祎，吴礼福，等.基于麦克风阵列自适应非线性滤波的语音信号端点检测方法[J].科技通報，2017，33（4）：199-203.
　　[3] 陈泽伟，曾庆宁，谢先明，等.基于自相关函数的语音端点检测方法[J/OL].计算机工程与用， 2017，03：1-6.
　　[4] 王明合，张二华，唐振民，等.基于Fisher线性判别分析的语音信号端点检测方法[J].电子与信息学报，2015，37（6）：1343-1349.
　　[5] 王建元，陈鹏，栾德福.基于SVD-HHT的低信噪环境语音信号端点检测[J].制造业自动化，2014，36（1）：57-61.

其他文献

基于决策树的钓鱼网页的识别方法

摘要：现如今许多不法分子利用钓鱼网站盗取用户的个人信息，窃取用户的财产，对用户造成巨大损失。因此该文通过使用决策树学习算法，提取其中的关键词，分析并建立钓鱼网站特征模型，对未知网站进行判别。CART是一种决策树算法，但CART决策树的多数表决法会屏蔽小类数据类型的影响，因此该文根据这点对CART决策树进行改进，引入代价函数，不断地利用迭代和最小均方误差调整特征的权重增加惩罚。实验结果表明，改进后的

期刊

决策树URL识别最小均方误差代价函数

以十六大精神为指导，切实推进依法行政

江泽民同志在十六大报告中指出,必须坚持有法可依,有法必依,执法必严,违法必究.加强对执法活动的监督,推进依法行政,提高执法水平,维护法制的统一,是摆在全党面前的一项紧迫

期刊

十六大精神依法行政法制建设药品监督管理局

建立珠江三角洲经济区问题刍议

建立珠江三角洲经济区问题刍议关振良，劳顺球１５年前珠江三角洲率先引进了竞争机制，各市县彼此间开展了激烈的竞争。竞争的结果，一方面使珠江三角洲基本上实现了工业化，城乡开始融为

期刊

珠江三角洲经济区珠江三角洲地区市场机制“看不见的手”大型基础设施跨国经营亚当·斯密资本主义社会主义市场经济建设有中国特色社会主义

Vista中高级安全的Windows防火墙

个人防火墙是保护用户免遭各种恶意软件攻击的第一道防线。与Windows XP SP2中的Windows防火墙一样，Vista的Windows防火墙默认就处于开启状态，目的在于一旦操作系统开始运行你

期刊

WINDOWS个人防火墙VISTA安全配置文件IPSEC恶意软件开启状态

全自动喷油润滑装置在熟料窑系统的应用

介绍了KPY-Ⅲ型自动喷油润滑系统的工作原理、技术特点及其在山西铝业氧化铝熟料窑系统的应用情况.该装置在熟料窑、冷却机、球磨机传动齿轮的使用情况说明KPY-Ⅲ型喷油装置

期刊

自动喷油润滑系统氧化铝熟料窑冷却机球磨机齿轮传动润滑

测土配方施肥是系统工程

测土配方施肥是科学施肥的发展方向，国家非常重视，为此投入了大量的人力财力，现对其相关的基本原理在此集中解答。测土配方施肥的依据作物所需要的矿物质养分主要来源于土壤和肥

期刊

测土配方施肥系统工程土壤养分科学施肥可持续利用合理施肥土壤资源优质高产

浅谈Exchange Server 2003 SP2的Direct Push 如何实现移动设备和邮箱的邮件自动同步功能

作为第二代邮件自动同步技术（Always Up—To—Date。AUTD）。微软在Exchange Server 2003 SP2中提供了Direct Push功能来自动同步移动设备和Exchange邮箱。它弥补了第一代AUTD中

期刊

ExchangeDIRECTServerPUSH移动设备SP2同步功能邮件

老程序在Vista里的新位置——如何在新操作系统中找到你所熟悉的程序

在Windows Vista中．有些你在Windows XP中经常使用的程序已经不在原来的位置了．如果不稍加指点．还真不一定能找到。

期刊

VISTA程序操作系统位置WINDOWS

某新车型离合器系统校核匹配计算

摘要：该文针对某新开发的插电式混合动力公交车车型所选配的离合器系统的传递扭矩、起步温升、滑磨功、执行机构推力和行程等进行校核匹配计算。　　关键词：插电式混合动力公交车；离合器；校核；匹配计算　　中图分类号：TP3 文献标識码：A 文章编号：1009-3044（2018）29-0199-04　　Abstract：The paper for the new designed PHEV of selec

期刊

插电式混合动力公交车离合器校核匹配计算PHEVclutchcheckmatching calculation

在脚本中提示输入密码

在本文中，Bill Stewart为大家介绍如何在Cmd．exe和WSH脚本中提示用户输入密码。

期刊

输入密码脚本CMD.EXESTEWARTWSH

分形理论在语音信号端点检测及增强中的运用

与本文相关的学术论文