噪声环境下的语音端点检测方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:xiaocaopeter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音端点检测的目的是从语音信号中区分出语音段(有声段)和非语音段(无声段),但是语音信号中往往会伴随着各种噪声,噪声的存在直接影响了端点检测的性能。本文从基于特征参数的语音端点检测方法出发,对噪声环境下的语音端点检测展开研究,具体的研究工作包含如下方面:一、针对基于单特征的语音端点检测方法所用特征在低信噪比环境下鲁棒性不佳的问题,本文将语音信号Gammatone频率倒谱系数(Gammatone Frequency Cepstral Coefficient,GFCC)的第一维系数GFCC0引入到语音端点检测任务中,结合多窗谱减法实现语音信号的端点检测。在babble和volvo等四种噪声环境下使用GFCC0特征法可以取得比谱熵法和对数频谱距离法更高的检测准确率,结合多窗谱减法虽然会增加检测时长,但可以进一步提升GFCC0特征法在低信噪比babble噪声和volvo噪声环境下的检测准确率。二、针对基于多特征融合的语音端点检测方法在复杂噪声环境下端点检测性能不足的问题,本文提出一种结合Gammatone频率倒谱系数与Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的融合特征,通过将语音信号的GFCC0与MFCC0特征相乘构造第一类融合特征。第一类融合特征可以实现对语音段的有效追踪,但在部分噪声环境下对语音段中清音的追踪能力略有不足。三、针对第一类融合特征对清音段追踪能力不足的问题,本文提出了一种自适应加权融合方法,利用清音追踪能力较强的投影特征和浊音追踪能力较强的子带谱熵特征分别提升GFCC0特征对清、浊音的追踪能力,构造兼顾语音段中清、浊音追踪能力的第二类融合特征。四、针对固定阈值的端点识别方法影响端点检测性能的问题,本文在提取两类融合特征的基础上,利用自适应估计的双门限法作为端点识别方法,分别基于两类融合特征实现带噪语音信号的端点检测。在pink和volvo等七种噪声环境下的实验结果表明,第一类融合特征可以在其中五种噪声环境下有效提升端点检测的准确率,而第二类融合特征在七种噪声环境下均取得了比对比算法更好的检测结果,特别是在volvo噪声环境下的检测准确率可以达到94.5%以上。
其他文献
平行句对抽取是缓解低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。但是目前平行句对抽取的方法都是基于句子语义相似性度量,并没有考虑不同词语在句子中语义表征的难易程度,同时主要集中在句子级别,忽略了文档级上下文信息以及图像所包含的信息,提取到的句子语义信息不充分,抽取到的平行句对质量不高,导致了汉-越神经机器翻译(Neural Machine Translation,NM
服装作为电子商务涉及最早的品类,已经成为规模最大、发展成熟的行业。网上服装销售具有很多传统模式不具备的优势,可使用户充分享受网络购物的乐趣和互动体验。服装迁移技术作为虚拟试衣系统的核心技术,越来越受到人们的关注。然而,如何帮助用户快速准确地找到个性化的服装以及人工智能辅助服装设计逐渐成为难点。为了辅助设计师设计时尚服装,而且可为用户提供个性化的数字服装定制,本文提出了面向服装创意设计的风格迁移方法
老挝语是老挝人民民主共和国的文字,作为“一带一路”重要盟国的老挝,其研究意义重大,由于老挝语使用人口少,且数字化落后,故从网络直接获取老挝语文本语料较为困难,但存在大量老挝语文本图像,因此,如何从现有文本图像中准确识别老挝语字符序列用以扩充老挝语文本语料,成为目前老挝语自然语言处理研究重点之一。光学字符识别可有效提取文本图像所含字符,但目前老挝语文字识别研究寥寥无几,故本文参考相关文字识别研究,提
案例推理是一种发展较为成熟、利用过往知识解决具有高度相似特征问题,并学习解决方案的方法。在检索案例时,对于庞大的案例库,传统KNN检索算法在处理线性问题时,需要对所有案例进行匹配。因此,存在时间成本高、效率低的问题。为此,现在大多研究都是对整个案例库聚类,形成具有不同特征的类簇。谱聚类算法作为一种基于图论的聚类算法,不同于一般的聚类算法,它不仅对样本集的空间分布特征没有要求,同时聚类的结果还是全局
材料基因组倡导发挥材料大数据的作用,采用机器学习变革材料研发文化。铝硅合金(Al-Si)具有强度高、耐磨性好且热膨胀系数小等性能特点,广泛应用于汽车、航天和电子工业中。Al-Si合金性能主要由合金微观组织中初晶Si相的形状及大小决定。目前,由于试验费用太高,时间成本巨大,微观组织图像的获取较为复杂,但它存在于公开发表的文献中。因此,本文采用深度学习方法从Al-Si合金文献中提取插图及标题,并筛选出
虚拟试衣能有效增强用户的网络购物体验,准确理解着装人体图像中以人为中心的语义区域,对辅助虚拟试衣起着重要作用。但由于着装人体图像服饰繁多,姿态各异,具有丰富的纹理和复杂的背景,使得准确理解图像变得困难。本文针对着装场景中人体姿态、边缘轮廓、服装配饰的复杂性以及人体部位关节点的遮挡等因素,导致人体解析结果不够精确的问题,结合边缘轮廓、姿态特征和粗解析特征,通过定义的结构损失和人体解析损失的组合函数进
身处互联网浪潮之中,各式各样的信息在日常生活中以爆炸似的速度飞速增长。从大量信息中快速准确获取用户需要的信息日渐成为人们的迫切需求和研究者们关注的热点,因此信息抽取技术应运而生。关系抽取隶属于信息抽取,是其中的一个子任务,人物关系抽取又是其中一个具体的研究方向。新闻文本作为当下人们获取信息的主要来源之一,大多以非结构化或半结构化形式分散于繁杂的互联网资源中,这些文本中可能包含了大量的人物实体及人物
森林结构参数,如树高、冠幅、胸径和树冠体积等,不仅是评估森林生长状态、空间结构及生态功能的重要指标,也是分析全球森林生态系统碳平衡的基础。其中,树高是森林资源调查的重要参数,常常被用于立地质量与树木生长状态评价、树木材积与生物量估计。机载激光雷达(Airborne Light Detection and Ranging,ALiDAR)能够主动发射激光能量脉冲,在一定程度上穿透密集植被冠层,快速获取
随着液晶显示器需求量的与日俱增,显示器的生产效率就显得尤为重要。提高显示器装配线的机械自动化程度可以显著提升显示器的生产效率,同时也可以减少人力成本的投入。液晶显示器在自动化装配过程中的夹紧定位装置伴随整个装配过程,是自动化生产线的重要装置。本文针对显示器自动化装配线设计了一种基于连杆机构的对中定位夹具。首先,在对夹具使用需求分析的基础上,确定了夹具的机构形式;并采用约束优化设计方法对连杆机构的具
脑-机接口(Brain-computer interface,BCI)是通过解码用户神经系统变化意图的变革性人机交互技术,其可以补充、修复、增强,甚至部分替代原有人正常神经功能的活动,在很多领域,其应用前景广阔。情绪研究就是其中的一个热门方向,负性情绪对个体的生活与工作有或多或少的影响。本文在研究情绪调节上,引入了基于功能近红外光谱(functional near infrared spectro