基于双域变换的有监督单通道语音分离

来源 :MD Imran Hossain | 被引量 : 0次 | 上传用户:mdre8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为一种便携的信息交流工具,在日常生活中被广泛使用。近年来,数字信号处理和语音通信技术得到迅速发展。随着人们对语音通信质量要求的不断提高,通信设备的功能需求也逐渐增长。总体上讲,语音通信的质量主要取决于语音分离(SS)的程度。SS在现实生活中有许多潜在的应用,如通信、助听器、自动语音识别、医疗、多媒体、辅助生活系统、类人机器人、鸡尾酒会问题等。在这些应用场景中,可靠的SS技术对于确保整体系统的鲁棒性起着至关重要的作用。然而能像人类听觉系统一样灵活的自动SS系统还没有出现。SS是一个富有挑战性的课题,具有重要的理论意义和广阔的发展前景,因此成为了当前的研究热点。研究者们提出了各种SS方法,其中大多数都是在短时傅里叶变换(STFT)域进行的。STFT对时域输入信号进行加窗分帧,并假设每一帧的信号是平稳的。这引入了窗函数的概念。关于窗函数的窗长设置问题,若选取较窄的窗长,所得到的谱有较高的时间分辨率,以及更好的短时平稳特性,但是频率分辨率会降低;若选取较宽的窗长,可以实现较高的频率分辨率,但时间分辨率和短时平稳性却变得不理想。由于存在时频分辨率的矛盾,我们难以通过STFT将时间与频率信息进行准确的对应。非负矩阵分解(NMF)通常直接处理信号在STFT域中的幅度谱,这会引入信号分解时的误差,从而导致重构性能的下降。另外大多数基于STFT和NMF的扩频方法只考虑幅度信息,而忽略相位信息。虽然语音信号的幅度部分对于语音的恢复至关重要,但相位部分也是不容忽视的。为了恰当地解决这些问题,我们通过小波变换将时域信号分解成低频和高频分量,分别对应为近似系数和细节系数。其中低频分量包含着主要的信息,高频分量可以忽略不计。在第一项工作中,本文提出了一种新的源分离方法,该方法利用双树复小波变换(DTCWT)和STFT组成双域变换框架,并结合稀疏非负矩阵分解(SNMF)对幅度谱进行处理。基于STFT的源分离方法面临着时间和频率分辨率的问题,而采用离散小波变换(DWT)又会产生时变相关的问题(即,时域信号的微小时移会导致小波系数的显著变化)。考虑到这些问题,我们首先使用DTCWT,它由包含不同的滤波器集合的两级树结构组成,并能对移位不变性提供额外的信息进行分析和近似,这些特性使得它具有更好的时域信号重建能力。通过DTCWT,时域信号被转换成一组子带信号来区分低频和高频成分。对每个子带信号进行STFT,可以构造出一系列复值谱。然后,应用SNMF将两个源信号的幅度谱分解为基向量的加权线性组合。最后,根据子带二元比率掩模计算出优化的估计信号后,依次进行逆STFT(ISTFT)和逆DTCWT(IDTCWT)得出时域的分离结果。采用GRID音视频数据库和TIMIT语料库的数据,我们对提出的方法进行了验证。实验结果表明,该方法的性能优于现有方法。在第一项工作中,我们仅考虑了幅度信息而忽略了相位信息。虽然幅度对于纯净语音的估至关重要,但是相位部分的提升也是不容忽视的。这促使了我们在第二项工作中研究复数谱估计对于语音分离的影响。在第二项工作中,本文提出了一种基于双域变换的单通道SS(SCSS)算法,该算法串行使用DTCWT和STFT,并通过SNMF对信号谱的幅度、实部和虚部分量进行分解。首先,我们使用DTCWT将时域语音信号分解为一组高、低频的子带信号,其中低频子带信号保留,高频子带信号置零。然后对每个低频子带信号进行STFT,构造复值谱。通过SNMF将谱的幅度、实部和虚部(MRI)所组成的拼接谱分解为基矩阵和权重矩阵。我们提出的算法通过两种方式计算初始估计信号,一种是只考虑幅度部分,另一种是考虑实部和虚部。由于这两组初始估计结果具有潜在的互补作用,我们通过基尼系数计算它们的权重。我们采用各种客观指标对该方法的分离效率进行了测试,结果显示与以往的分离方法相比,该方法取得了较好的分离效果。在有监督语音分离问题中,基于SNMF的方法针对每一个单独说话人学习非负基矩阵,之后使用与说话人相关的基矩阵分离混合谱。然而单独说话人的基矩阵在训练时未能考虑与其他说话人的干扰关系,这会导致训练和测试条件不匹配,因此无法实现最优估计。在第三项工作中,我们提出了一种基于双域变换的SS方法,该方法在进行DTCWT和STFT的双域变换后,利用生成式联合字典学习(GJDL)方法联合学习信号的MRI信息。首先利用DTCWT将时域语音信号为分解一组子带信号,然后通过STFT将每个子带信号转换到时频域,并构造复值谱,其中包含了后续使用的子带信号的实部、虚部和幅度三部分信息。我们利用GJDL方法学习联合字典,并采用带相干性准则的批量最小角回归算法(LARC)进行稀疏编码。我们使用两种不同的方法对初始估计信号进行计算,一种是仅考虑幅度部分,另一种是考虑实部和虚部。最后,采用基尼系数(GI)来提高估计的准确度。GJDL是使基字典适应混合语句的两阶段迭代算法。在第一个阶段中,通过稀疏编码计算出混合信号在固定基字典上的投影系数矩阵;在第二个阶段中,更新基字典同时保持原子在系数矩阵中的最小角度回归的非负形式。与上述算法相比,该算法在所有考虑的评价指标中表现出了最佳的性能。
其他文献
二叠纪-三叠纪之交发生了显生宙以来规模最大的生物灭绝事件,随后的早三叠世则经历了长达4-8百万年的生物迟缓复苏。海洋氧化还原条件的变化是导致生物灭绝以及生物迟缓复苏的重要驱动机制。碳和氮是生命体的重要组成元素,碳、氮同位素研究是反演古海洋环境变化的有效手段。为探究二叠纪-三叠纪之交海洋碳循环和氮循环的扰动机制、海洋氧化还原条件变化及其与生物灭绝之间的相互关系,本文对贵州边阳打讲剖面进行了高精度的无
近年来,动态、不确定环境下的序贯决策问题成为人工智能和控制等领域的研究热点。部分可观测马尔可夫决策过程(POMDP)为这类问题提供了一个统一的描述框架。由于POMDP模型考虑了状态不确定性对决策带来的影响,因此能够更加客观地描述真实世界,被广泛应用于科学、工业、商业、军事和社会等领域。然而,实际应用的POMDP模型具有较强的非线性和随机性,存在观测信息易受时变噪声和野值干扰、多智能体协同场景下计算
学位
随着社会经济的飞速发展和全球人口的急剧增长,各个领域对能源的需求日益增长,寻求清洁的可再生能源已经成为人类社会的基本共识。海洋中蕴藏着丰富的可再生资源,而波浪能以其能流密度高和储量大等特点成为优质的可再生能源之一。鸭式波能转化装置因其形状和运动特性类似于鸭子的运动而得名,并且以其较高的一级波浪能转化效率在众多波浪能转化装置中受到广泛关注。由于大多数前人的数值研究成果均是基于线性势流模型,但考虑到鸭
细胞周期是细胞增殖和个体发育的基础。细胞周期的不同时相受到不同的细胞周期素蛋白(Cyclin)和相应的细胞周期素依赖的蛋白激酶(CDK)的调控。Cyclin B-CDK1是调控有丝分裂进入和完成的关键因子。有丝分裂期的主要功能是把间期复制的遗传物质均等地分配到两个子代细胞中。有丝分裂期染色体分离出错会导致子代细胞形成非整倍体。非整倍体和肿瘤的发生发展密切相关,约有90%以上的实体瘤细胞都是非整倍体
学位
相干多普勒测风激光雷达是一种主动激光遥感设备,具有体积小,动态探测距离远,时空分辨率高,精度高等特点,被广泛应用于大气风场遥感领域。本文基于深度信号功率谱分析,反演多大气参数,进一步扩展激光雷达的功能和应用。这些大气多参数在重力波、云、降水、湍流、大气污染、危险天气的探测和研究中发挥了重大作用。本论文研究了大气多参数探测多普勒激光雷达反演技术及应用,论文的主要工作如下:回顾了国内外从事测风激光雷达
唇语识别是应用图形、图像、视频处理技术,通过采集目标人讲话视频,分析按时间序列化的唇部形状信息,识别出说话人讲话内容的技术。由于不同人的唇形变化的差异性和语言的复杂性,相对于语音识、图像识别,唇形变化特征更难提取,唇语识别是一项研究难度较大应用面较窄的领域。但在提高嘈杂环境中语音识别的准确性,弥补身份安全认证中人脸识别安全性不足,辅助聋哑人进行语言交流等领域,唇语识别具有极佳的应用前景,是一个值得
密封滚动轴承(带密封单元的滚动轴承)广泛应用于旋转机械中,可以简化主机结构、方便安装和维护以及消除周围环境对滚动轴承的污染。密封单元失效是造成密封滚动轴承润滑剂泄漏的主要原因,研究表明有超过80%轴承的提前失效源自轴承润滑问题,因此建立滚动轴承密封单元的密封性能分析模型,开展密封性能研究,对滚动轴承密封单元的设计和应用具有理论指导意义和重要的工程应用价值。本文针对滚动轴承中的静密封单元和动密封单元
目的 总结部分型及过渡型房室间隔缺损患者的临床特征,探讨基于真实世界角度分析术后早期随访结果的可行性。方法 回顾性收集广东省人民医院2018年1月1日—2020年7月12日期间,诊断为部分型及过渡型房室间隔缺损患者临床资料,历次返院检查作为真实世界随访结果,单因素Cox风险比例模型分析术后房室瓣中度以上反流等情况。最终93例患者纳入分析,72例部分型及21例过渡型房室间隔缺损。男38例、女55例,