基于麦克风阵列的语音分离算法研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lynacc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类通信中最方便、快捷的形式,随着人工智能社会的到来,语音交互也成人机交互的第一选择。然而在现实生活中,语音的背景环境往往是复杂且对语音质量产生负面影响的,我们常常需要从复杂的噪声背景中提取出我们感兴趣的语音并且尽可能保持语音的保真度。目前研究者们已经取得较多显著的成果,但是依旧面临着算法的鲁棒性不强和目标语音的感知质量不够高等问题。本文将针对从复杂噪声背景中提取出单目标语音和多说话人分离两个场景做了一些深入的研究。首先是复杂噪声背景中单目标声源的语音分离的研究。针对噪声的存在特别是低信噪比的场景,广义互相关(GCC)的性能严重下降,从而严重影响广义互相关-非负矩阵分解(GCC-NMF)的分离性能。针对该情形,本文提出了新的校准函数——将基于双向长短记忆网络(BLSTM)学习到的理想二值掩蔽(IBM)作为新的权重因子加入的GCC-PHAT(MWGCC-PHAT)和GCC-NMF(MWGCC-NMF)。实验表明,MWGCC-NMF能够分离出GCC-PHAT分离失败的低信噪比混合语音。总体性能上对比GCC-NMF,SDR相对提高了25.44%,PESQ提高了14.75%,OPS提高了9.80%,SNR提高了6.3 8%。证明了MWGCC-PHAT有更好的鲁棒性和性能。其次是多说话人的语音分离的研究。由于GCC-NMF无法分离关于麦克风对中轴镜像对称或者近似对称的不同源、对位置信息很敏感等的缺陷,提出了基于Logistics回归选择策略的GCC-NMF,将圆形六麦克风阵列丰富的空间信息和GCC-NMF计算量小灵活的优点进行融合。实验结果说明,无论是仿真麦克风阵列数据还是实采麦克风数据,基于Logistics回归选择策略的GCC-NMF都比最差麦克风对的GCC-NMF有更好的性能。基于Logistic回归选择的GCC-NMF 比麦克风阵列中性能最差的麦克风对的平均OPS提高了27.47。证明了Logistics回归选择策略的GCC-NMF大幅度提高了GCC-NMF的空间鲁棒性和实用性。
其他文献
环境污染物的影子价格体现了污染物的边际减排成本,是政府制定公共环境政策的重要依据。本文在环境技术的基础上。扩展了传统的产出方向性距离函数方法,进而构建了能够将多种环
目的:探讨分析椎管内麻醉无痛分娩对母婴近期和远期的效果.方法:将98例初产妇分为观察组与对照组,每组各49例,观察组进行椎管内麻醉无痛分娩,对照组进行自然分娩,观察和对比
由于海外的影响与新文化运动的需求,五四时期易卜生剧作的译介形成热潮。翻译主要集中在社会问题剧,其写实主义与个性主义引起了广泛的共鸣,因易卜生自身的丰富性与接受者眼
论文梳理了中国政府在设立归难侨的安置制度以及制定相应的华侨农场政策中的治理逻辑及其治理绩效。研究发现,政府对华侨农场及归难侨的治理经历了三个阶段:从设立之初强调"
<正> 屈原是我国古代第一个伟大的诗人,同时也是一位杰出的思想家.司马迁在《屈原列传》中对屈原的思想及其代表作《离骚》作了比较全面而正确的评价.《屈原列传》是当今所能
厌氧消化过程中产生的污泥消化液,氨氮浓度高,C/N很低,通常小于1。目前普遍将消化液回流到主反应区,这明显增加了水厂进水氨氮负荷,不利于脱氮效果的提高。本试验研究开发了
随着经济的发展,海运货代企业在整个海运物流行业中扮演着非常重要的角色。中国货运代理市场正逐步成为全球市场的一部分,并经历着全球市场的潮流。因而,对中国货代而言既有
目的通过评价在孕妇学校中增设预防艾滋病母婴垂直传播的专题健康教育课程,对提高孕妇艾滋病知识知晓率及降低艾滋病母婴垂直传播的干预效果,为在全市开展预防艾滋病母婴垂直
太赫兹时域光谱技术(THz-TDS)结合主成分分析-线性判别分析(PCA-LDA)和支持向量机(SVM)用于正品大黄样品的鉴定。在时域测量41个大黄样品的太赫兹时域透射光谱,然后将这些时
儒家思想“贵和尚中”的中和之“度”,在王安忆《长恨歌》之审美、人事及城市摹写三个层面均有体现。与其说《长恨歌》是写旧日上海的,倒不如说是在写一种理想的生活之“度”