基于字典稀疏优化和聚类分解的语音转换研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cycblb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是指将一个说话人的个性特征转换为另一个说话人的个性特征,同时保持语义不变。语音转换涉及语音信号预处理、特征参数提取、语音合成等多个方面。对语音转换的研究可以促进说话人识别、语音增强和语音编码等领域的发展。此外,语音转换具有广阔的应用前景,如说话人伪装身份通信、定制个性化声音、智能配音等。本文在非负矩阵分解(Nonnegative Matrix Factorization,NMF)的基础上,提出了一种基于字典稀疏优化的语音转换算法。该方法使用Mel滤波的方式降低语音特征维度,构建低维语音字典,之后利用字典稀疏优化算法从字典中选取高代表性的基矢量,从而降低语音字典的尺寸,提高字典稀疏性,降低转换时的计算成本。实验结果表明,该方法得到的字典尺寸和转换语音失真度均低于传统NMF方法。字典平均占用空间约为传统NMF方法的0.22%,转换语音的平均Mel倒谱失真度相较于传统方法下降了 6.87%。为了进一步改善语音转换系统性能,提高转换效率,本文在以上字典稀疏优化的基础上提出了一种字典聚类分解的语音转换方法,利用改进的K-means算法对稀疏优化后的字典进行聚类,将字典分解为多个子字典,然后将每帧语音特征在单个子字典下进行转换。实验结果表明,该方法进一步降低了语音失真,转换效率优于传统NMF方法和高斯混合模型(Gaussian Mixture Model,GMM)方法。相较传统NMF方法,转换语音的平均Mel倒谱失真度下降了8.02%,平均特征转换所用时长降低了89.44%。实验结果表明,提出的字典稀疏优化算法和聚类分解转换算法相对传统NMF语音转换方法均在一定程度上提升了语音转换的性能,不仅降低了转换语音的谱失真度,而且大幅度地降低了资源开销。
其他文献
目前机床工具行业已逐渐进入精密生产模式,客户对反应速度和技术能力的要求逐渐提高,关注的不再仅仅是产品本身而是解决方案。面对国际经济大坏境的不稳定和企业间日趋激烈的竞争,如何深耕市场、持续技术创新、逐步完善客户服务体系、更快更及时地响应客户成为了机床工具行业发展的新目标。而提高客户响应速度,建立健全客户服务体系,则必须通过对客户服务流程的再造或优化来实现。本研究具体工作内容主要包含三方面:第一,对I
学位
科技的发达与进步,移动社交软件的兴起,使互联网和移动终端成为发展最为迅速的媒介,深入到人们生活的方方面面,全新的外部环境强烈地冲击着传统的营销模式,营销方式的发展需要跟上时代进步的节奏并有所突破。4R营销理论阐述了更适用于这个时代市场营销的要素,即:关联(relativity)、反应(reaction)、关系(relationship)和回报(retribution),侧重于用更有效的方式在企业和
学位
研究目的:一、根据文献学的研究,对历代医家关于营卫学说的论述进行梳理和总结,并对营卫的概念进行了界定。二、通过对叶天士著作和医案的研究,归纳总结叶天士对营卫学说的继承与发展,旨在丰富中医学理论,更为深刻地理解中医学营卫学说的内涵。三、通过梳理当代对叶天士营卫学说的应用与拓展研究,旨在更好地指导当今中医临床实践,并对中医学营卫学说下一期的发展进行展望。研究方法:本课题属于文献整理、分析、归纳性研究。
学位
当前,执行依据不明确已经成为导致我国“执行难”问题的一个不容忽视的成因。执行依据的明确不仅是对当事人权益的保护,更是对我国司法信用和司法权威的维护。最高院和地方法院相继出台有关执行依据不明问题的认定及处理规定,显示出对执行依据不明问题的日益重视,但从我国的实践现状来看,其中仍存在诸多问题。本文主要采用实证分析的方法,通过对实践案例的收集与分析,把握我国执行依据不明问题的实践现状,同时,结合我国相关
学位
学位
报纸
学位
近年来,各种自适应滤波器层出不穷,并且在系统辨别、回声消除、主动降噪、信道均衡等领域有着广泛的应用。当环境噪声为高斯白噪声时,基于传统的均方误差准则推导的滤波器,往往表现出非常优异的性能。但是,当环境噪声为脉冲噪声时,此类滤波器性能会下降甚至发散。基于相关熵准则建立的递归最大相关熵(RMCC)滤波器,同时考虑了数据的高阶统计特性,具有很好的抗脉冲噪声性能,且收敛较快。然而,该滤波器无法兼得快的收敛
学位
抑郁高危人群是指已经具有抑郁易感人格,并且至少出现一种抑郁症状,但尚未完全符合抑郁症诊断规范(精神疾病诊断与统计手册第五版)的人群,军人因工作环境紧张,极易产生心理问题,此类人群的识别对于抑郁症的预防及治疗有着重大意义。传统的精神障碍筛查主要依据量表,量表筛查虽然可以将被试的心理活动予以量化,但存在情绪干扰、掩饰性强等不足,因此,本文在量表筛查的基础上,对被试的客观眼动特征和面部特征进行提取,提出
学位
随着世界范围近视人口比例的不断提高,病理性近视已成为致盲的主要原因之一。条纹损伤是高度近视进行性发展成病理性近视的一种重要临床表现,其尽早发现与定量分析有助于病理性近视的早防早治。吲哚青绿荧光造影(Indocyanine Green Angiography,ICGA)是临床诊断条纹损伤的“金标准”,但ICGA是一种有创成像技术,部分患者对吲哚青绿造影剂会产生不同程度的过敏反应。炫彩多色扫描激光成像
学位