【摘 要】
:
针对噪声干扰环境下的说话人识别问题,提出了一种基于多任务学习的语音增强方法作为说话人识别系统的前端.在卷积神经网络(CNN)的基础上,通过构建语音增强与说话人识别的融合网络多任务学习模型,同时在输入输出端拼接梅尔频谱倒谱系数(MFCC)和基音周期特征作为辅助任务,以及利用同方差不确定性自适应调整损失权重.实验结果表明,相比只输入对数功率谱(LPS)的CNN以及DNN模型,加入辅助任务的CNN模型可以提高语音增强的表现.另外,语音增强与说话人识别任务的联合训练可以增强噪声干扰下的说话人识别效果,提高模型的鲁
【机 构】
:
昆明理工大学 信息工程与自动化学院,昆明650500
论文部分内容阅读
针对噪声干扰环境下的说话人识别问题,提出了一种基于多任务学习的语音增强方法作为说话人识别系统的前端.在卷积神经网络(CNN)的基础上,通过构建语音增强与说话人识别的融合网络多任务学习模型,同时在输入输出端拼接梅尔频谱倒谱系数(MFCC)和基音周期特征作为辅助任务,以及利用同方差不确定性自适应调整损失权重.实验结果表明,相比只输入对数功率谱(LPS)的CNN以及DNN模型,加入辅助任务的CNN模型可以提高语音增强的表现.另外,语音增强与说话人识别任务的联合训练可以增强噪声干扰下的说话人识别效果,提高模型的鲁棒性.
其他文献
为提高低分辨率人脸图像的识别性能,提出一种基于高斯图像金字塔特征融合的低分辨率人脸识别方法.首先,通过多尺度分析技术建立低分辨率人脸高斯金字塔;针对金字塔各层人脸图像特点,使用恰当的特征提取方法获取各层图像的特征谱,其中底层图像进行局部二值模式计算,并将统计直方图序列作为该层的人脸特征谱;中间层使用适当的Gabor滤波器进行卷积,提取的Gabor特征谱作为中间层的人脸特征谱;采用方向梯度直方图对顶
Web服务的异构性导致Web服务组合经常出现失配现象,Web服务适配是解决失配的问题的可行方法,而可适配性是能够进行适配的前提,本文提出基于动作映射的Web服务组合自动化可适配分析方法.首先,构造包含语法、语义和行为协议的SxSTS模型来全面刻画Web服务;其次,基于参数本体概念兼容建立参数映射并依据参数映射结果建立动作映射关系;再次,通过检查所有请求动作都有对应接收动作并且接收动作中不存在缺失的参数判定可适配性;最后,通过实例说明了方法的有效性.
答案选择是问答领域中一项重要的子任务,该任务旨在从候选答案集中选择出正确的答案.传统的模型主要依靠人工提取问答之间的语义相似度特征,并通过分类器或排名算法选择最匹配的答案.近年来的研究工作主要基于深度神经网络自动提取问答的语义相似度特征,并在问答匹配精度上取得了巨大的进步.但是,大多数深度神经网络模型依赖单一的神经网络来获取问答的语义表征,且未充分考虑问答在语义表征上的相互影响,无法充分挖掘问答之间的语义相似信息.针对上述问题,本文提出了一个知识增强的混合神经网络模型KE-HNN(Knowledge-en
行人重识别技术旨在匹配不同的摄像机拍摄场景中属于同一个人的所有图片.近年来,核化跨视图二次判别法已在相关任务中取得优良的效果.然而,在处理高维小样本数据时,对于协方差矩阵逆的估计通常由于数据集较小的原因容易产生较大的偏差;在不同视图之间,人的外观经历复杂的非线性转换,因此导致识别精度较低.为解决此问题,本文提出一种将最小误差分类、平滑技术与核化跨视图二次判别法相结合的度量学习方法 MCE-kXQD
奶昔减肥产品,早在5、6年前就被曝光出来是一场健康骗局,对于想减肥的爱美女士来说,在诱惑面前总是有禁不住购买的欲望。哈尔滨的周女士通过朋友介绍,今年7月7日在名为“秋玉减肥”的微商手中购买了一个疗程的慕斯草莓奶昔,花费698元。7月11日和12日连着喝了两天,周女士感觉身体不适就停了。在22日和23日又连续服用了两天之后,周女士出现了眩晕心慌呕吐的症状,比之前更严重,她意识到不是天气热的原因而是这个产品有问题。
7月底,因使用橡皮金品牌防水材料后,广西南宁消费者叶女士家的墙砖出现脱落,生产厂家一一西牛皮防水科技有限公司的经销商承诺补偿4桶全新防水材料,遭到叶女士拒绝,“他们生产的防水材料本来就有问题,还敢用第二次吗”,加上因此产生的损失远远超出了这4桶防水材料的总价,叶女士希望厂家给出更合理的处理方案。
颜色是基于内容的图像检索的重要特征.传统颜色直方图由于只考虑色彩总量而无法区别色彩空间分布差异.本文提出了一种新的颜色密度直方图(Color Density Histogram CDH).通过计算主要颜色的密度,反映颜色的空间分布离散程度.密度大,颜色分布较集中,密度小,则颜色分布较分散.在HSV颜色空间上,使用CAREL的1000图像做测试数据集,在平均查准率、查全率上都优于颜色直方图方法.结果
针对半监督软件缺陷预测中的类不平衡以及特征中含有过多无关特征和冗余特征的问题,提出一种改进的半监督集成软件缺陷预测方法FeSSTri(semi-supervised software prediction using Feature Selecting and Sample and Tri-training).首先使用ADASYN自适应综合过采样算法对部分标记样本进行采样,来解决数据集类不平衡问题;其次利用采样后的数据构建分类器,给未标记数据做预标记,将标记样本与预标记样本结合,使用最小冗余最大相关mRM
随着电子商务网站的快速发展,针对不同用户进行适合其个性化推荐的需求也不断增加.其中,产品视觉外观是用户选择的关键因素之一,因此视觉特征在推荐模型中有重要的作用.同时,文献表明在个性化推荐算法中图像数据的一个较小扰动可能会较大降低推荐准确度和模型鲁棒性.针对这一问题,本文首先验证了在产品美学因子特征中加入对抗性扰动会对模型鲁棒性产生影响;其次提出了一种改进的ADCFA(Adversarial Dynamic Collaborative Filtering Model with Aesthetic Featu
跨模态检索是可由一个模态样本查询能够返回另一模态语义相关结果的检索方法.但是在许多实际检索系统中,新数据是不断增量迭代的,这就要求检索模型具有良好的可扩展性.然而当下的大多数跨模态检索方法未聚焦于可扩展性的研究,无法平衡新知识和旧知识之间的关系.针对跨模态检索中存在的这个问题,本文提出了增量跨模态检索方法(Incremental Cross Modal Retrieval,ICMR).该方法仅使用增量样本数据集进行模型的扩展.所提方法包含两个阶段:阶段1是基于跨模态的知识蒸馏网络构建,目的是防止增量学习模