面向语音可懂度增强的特征估计算法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:horse12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动通信网络的覆盖率不断提升,人们已习惯随时随地通话,因而通话场景更加复杂多样,导致环境噪声等对用户通话体验的影响更加突出。本文专注于解决近端通话场景中听音方受周围环境噪声影响听不清远端发送的语音的问题,解决这类问题的算法被称作语音可懂度增强算法。
  语音可懂度增强算法通常分为两类:基于规则机制的算法和基于统计机制的算法。基于规则机制的算法利用经验主义或者度量标准构建语音时频域能量调整规则。基于统计机制的算法思想是将普通语音转换为可懂度更高的Lombard语音。Lombard语音源自Lombard效应,是指人在噪声环境中说话时本能改变发声方式去对抗噪声影响时发出的声音。此类算法由于兼顾语音可懂度与自然度逐渐成为主流算法。
  现有基于统计机制的算法因声码器中的声学特征参数提取根据纯净语音设计,用于非纯净语音会导致性能急剧下降。其中,基频和频谱包络为影响语音可懂度增强算法性能的关键声学特征,如何从非纯净语音中估计基频和频谱包络特征参数已成为当前语音可懂度增强算法的重要挑战。
  本文针对现有的基频估计算法无法从非纯净语音中估计精确的基频值与清浊音判决信息的问题,提出了基于一维卷积神经网络的改进型基频估计算法,利用数据增强和改进的基频稀疏算法提升了基频估计准确率,能够获取更佳的清浊音判决信息。实验表明,清浊音判决误差相对BLSTM相对降低13.55%,粗略基频估计误差相对BLSTM和CREPE分别相对降低12.83%和21.17%。
  本文针对现有的频谱包络估计算法从非纯净语音中估计的频谱包络参数准确率不足的问题,提出了基于循环神经网络的频谱包络估计算法,利用语音信号的时序相关性以及数据增强提高了模型的适应能力。相对基于深度神经网络的算法和CheapTrick算法对数谱失真分别平均相对降低4.37%和9.64%。
  本文使用基于一维卷积神经网络的改进型基频估计算法以及基于循环神经网络的频谱包络估计算法从非纯净语音中提取基频和频谱包络,并通过高斯混合模型将得到的基频和频谱包络映射成Lombard风格的特征,进一步使用WORLD声码器提取非周期信息,最后实现了Lombard风格语音的合成。整体语音可懂度增强系统的高斯比特级语音可懂度指数分别较对比算法Net-based和W-based相对提升4.66%和9.78%,MOS打分分别提升0.2和0.5。
  本文提出的基频与频谱包络估计算法使得现有基于统计机制的语音可懂度增强系统能够适用于非纯净语音,使该系统能够满足更多的应用场景,能够有效改善实际语音通话时的语音可懂度与自然度,提升移动语音通话用户的通话体验。
其他文献
该文纯化了酿酒酵母(Saccharomyces cerevisiae)和大肠杆菌(Escherichia coli)的精氨酰-tRNA合成酶(ArgRS),以酵母tRNA,和大肠杆菌tRNA为对象研究它们之间的交叉识别.氨酰反应的动力学常数表明酵母ArgRS能够氨酰化大肠杆菌的tRNA,但催化效率较其氨酰化天然或转录的酵母tRNA为低.而大肠杆菌ArgRS只能识 别大肠杆菌的tRNA,不能催化酵母
学位
磷脂酶A(PLA)广泛存在于各种蛇的毒液中,它能酶促水解甘油磷脂的第二位酯酰键,生成溶血磷脂和脂肪酸,并且具有多种药理学功能.从江浙蝮蛇毒液中分离得到酸性PLA(APLA)、碱性PLA(BPLA)和中性PLA(NPLA)三种PLA,其中APLA能抑制血小板聚集,NPLA属于突触前神经毒素,BPLA则具有溶血活性.PLA分子量只有14kD左右,却具有众多的药理学活性,它既是基础研究的重点,又具有 潜
学位
为抑制Ⅲ°烧伤后疤痕的形成,研究人员从促进疤痕形成的生长因子TGF-β着手.应用反义脱氧寡核苷酸和反义TGF-β质粒封闭TGF-β的表达,设计合成了正义1、反义、错醋义寡核苷酸,构建了反义TGF-β质粒,分别作用于培养的人皮肤成纤维细胞,应用细胞计数、RT-PCR、原位杂交、免疫组化、Westerblot、病理检测等方法证实了反义TGF-β能抑制人皮肤成纤维细胞的增殖,抑制胶原的合成.正义、错配义
水轮机微机调速器是水轮机控制系统中的重要设备,近年来PLC技术在此领域得到了广泛的应用.该文采用三菱公司的FX PLC实现了水轮机调速器的基本功能,对系统的硬件和软件进行了详细的分析和说明.文章重点研究了以下几个问题:1.根据PLC自身的特点开发设计了测频电路.2.对多种水轮机开机规律进行分析比较,以开环开机为基础提出了一种增量开二次方的开机规律,实现了机组的快速平稳启动.3.分析了并联PID的离
学位
PLC
电站锅炉煤粉燃烧过程中产生大量的氮氧化物(NO),NO对生态环境造成很严重的破坏.国内外科技工作者对煤粉燃烧过程中NO的生成机理和控制技术进行了大量的研究工作,这些研究可以分为NOx的生成机理、NO生成影响因素的实验研究、NO生成的数值模拟、煤燃烧过程NO控制技术、燃煤锅炉NO排放特性和锅炉NO生成量的预测等各方面,该文对国内外的研究进行了全面综述.煤粉的燃烧过程涉及多方面的影响因素,如稳定性、安
学位
随着无机纳米粒子在光学、生物、能源等领域的应用优势日渐凸显,对其功能化性质的要求越来越迫切。而且在评估、优化、修饰其性能时,表面裸露、无配体的纳米粒子是理想的参照材料,因此,制备无配体的纳米粒子成为人们研究的热点。经过近三十年的发展,飞秒激光液相合成纳米粒子已经发展成为一种可扩展的易操作的无配体纳米粒子合成手段。它不仅解决了传统方法提纯步骤复杂、副产物多、有配体的缺点,而且还实现了高产出、便捷、灵
作为一门新兴学科,光子技术以其极高的信息容量和效率、极快的响应速度、极大的存储能力、极强的互连能力与并行能力,取得了快速发展。在光学传感、信息传输、高速信息处理、信息存储与显示等方面得到了广泛的应用。光子技术与电子技术形成相互补充、共融与促进的关系,使其在商品市场的份额逐年快速增长。光子生物化学传感已成为当今光子学研究的重要领域之一。光子技术的快速发展极大地提高了光子生物化学传感的性能,特别是在光
该论文利用超高真空扫描隧道显微镜(UHV STM)研究了室温条件下沉积在Si(111)7×7重构表面不同覆盖度的Ag粒子.实验结果表明,低覆盖度时的Ag粒子主要有A、B两种类型,其中A型Ag粒子呈环状结构,最小的A型Ag粒子由3个Ag原子组成;而B型Ag粒子则是由两层Ag原子构成.高覆盖度时Ag粒子的生长过程为层岛混合生长(Stranski-Krastanov)模式.该文还研究了不同蒸发速率对Ag
基于音视频分析的全天智能监控系统具有广泛的应用,近年来日益得到了关注。目前视频监控已得到了充分的发展,相对而言,音频监控及其核心技术音频场景(或音频事件)分析还处于初级阶段,有待进一步发展。与此同时,音频场景识别/分析在智能家居领域得到广泛应用。为此,本文以家居环境下的音频场景分析问题作为研究对象,从以下几个方面开展了创造性工作。  1)建立家居音频场景数据库。该数据库包括2个城镇家庭和2个农村家
近年来,社区安防监控视频在“平安城市建设工程”中发挥着越来越重要的作用。随着布设范围的扩大、视频清晰度的提高,监控数据飞速增长,给传输和存储带来巨大压力。当前高清监控视频以宽带、蜂窝网络和Wi-Fi为主的接入方式,成本居高不下,制约了摄像机的布设发展。以NB-IoT(窄带物联网)为代表的智慧物联网技术的兴起,给监控系统的扩展创造了技术条件。其广覆盖、多连接、低功耗和低成本的特点,具备很好的无线接入
学位