多人对话场景下的说话人分割聚类研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户：ayun33

【摘要】

：

说话人分割聚类是对一段多人混合的连续语音自动切分,获得"什么时候谁在说话"这个信息的技术。当前在两人电话对话数据上,说话人分割聚类系统取得了很好的性能;但是在会议、

【作者】

：

朱唯鑫

【机构】

：

中国科学技术大学

【出处】

：

太原理工大学

【发表日期】

：

2017年期

【关键词】

：

说话人分割聚类共识聚类回归深度神经网络长度规整的MAP算法 T_s准则改进的T-Test度量距离

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人分割聚类是对一段多人混合的连续语音自动切分,获得"什么时候谁在说话"这个信息的技术。当前在两人电话对话数据上,说话人分割聚类系统取得了很好的性能;但是在会议、电视广播多人对话等复杂场景下还是面临着很多挑战,存在的问题包括:一般说话人数不定且没有人数的先验信息;说话人交谈时轮换快,每个说话人的语音长度不定;语音中存在着多种多样的噪声等。如何有效的解决这些问题,提升分割聚类系统的鲁棒性成为重要的研究方向,也是本文主要的研究内容。本文针对电视多人访谈节目中说话人分割与聚类的问题进行研究,论文的主要工作和创新如下:第一,主流算法的融合改进。在论文第二章中,在典型的分割聚类算法的基础上,采用深度神经网络(Deep Neural Network,DNN)取代传统的贝叶斯信息量的方法来实现语音的分割,由于DNN强大的区分能力,提高了变化点检测的准确率;在聚类方面,采用了共识聚类的方法对多套系统进行融合,提高了类别的纯度,加强了初始模型的鲁棒性,从而降低了系统的错误率。第二,噪声环境下特征降噪。在论文第三章中,利用回归深度神经网络(Re-gression DNN)去拟合带噪音频的声学特征到干净音频的声学特征的映射函数,用这个回归网络提取出降噪后的特征削弱了噪声的信息,将该降噪特征用于分割聚类系统,降低了系统的错误率。进一步,利用共识聚类对降噪特征和原始特征系统进行融合,显著的提升了系统的性能。第三,时长鲁棒的类别模型训练算法。多说话人场景下,每个说话人的语音长度是不定的,在论文第四章中,针对传统的最大后验估计(Maximum A Posteriori,MAP)得到的类别模型受类别时长的影响导致模型参数偏移的问题,提出在MAP过程中,对相对因子根据时长进行规整,提高类别模型参数的时长鲁棒性。实验结果表明,对于归一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)和T-Test度量距离,规整后的类别模型带来了性能的提升。第四,高区分性的人数判定算法。在论文第五章中,围绕人数确定进行研究。在门限法确定人数的基础上,采用Ts准则确定人数,该准则无需在开发集设定门限,实验结果表明,Ts准则和门限法融合提升了人数确定的准确率。另外,将估计的语句类间类内分布的均值与开发集门限相结合,设定自适应的门限,提高了人数确定准确率。最后,提出一种改进的T-Test度量距离,改进的方法详尽的利用了似然比得分分布的统计信息,更具区分性,从而在人数确定上更加准确。

其他文献

基于卷积神经网络的语种识别方法研究

语种识别技术是利用自动化方法对语音内容所属语言种类的判决过程。语种识别技术作为智能语音处理中包括自动语音识别、声纹识别及自然语言处理中重要的前端处理过程,在近十

学位

语种识别端对端网络深度神经网络统计量建模语种区分性基本单元

基于客户管理的信息系统研究和实现

当前,中国通信行业正面临着经营环境和市场格局的深刻变化和挑战,如何提高企业的核心竞争力,如何在客户忠诚方面取得令人满意的成果,笔者认为,可以通过引入客户关系信息系统管理来解决。本文首先对国内外研究现状做出了相关综述,其次给出了论文的主要研究方法和技术路线分析,对文章所涉及到的营销理论作出介绍,使用PEST分析方法,分析某公司所处的政治、经济、产业竞争环境及技术环境；运用SWOT战略分析方法深入分析

学位

客户关系管理信息系统

圆波导旋转TE62模式毫米微波产生器

准光模式产生器作为回旋管中准光模式转换器的测试源，对回旋管的研制和生产有非常重要的意义。本文对3mm波段旋转TE6，2模式产生器进行了深入的理论和实验探索。　　首先，对准

学位

准光模式产生器旋转TE62模式开放式谐振腔准抛物柱面反射镜结构设计

基于高性能电路与虚拟仪器的脑电信号采集装置设计

科技与经济的蓬勃发展使人们对世界的认识有了更高的要求,追求着更加发达的医学和生物学。对于人体大脑奥秘的探索更是吸引着无数研究者。经过多年的研究,电子技术和信号处理

学位

EEG装置数据采集LabVIEW脑电节律

分离机制移动性管理设计与关键技术实现

IP地址的身份与位置双重属性,严重影响着移动互联网的移动性及安全性。本文依托国家科技重大专项“移动互联网网络与信息安全技术研究”,融合身份与位置分离、接入地址与核心

学位

分离机制移动互联网移动性管理PMIPv6

基于TC351的移动通信终端的研究与实现

在日新月异的今天，随着科技的进步，人们的生活质量一步步提高，生命和财产的安全问题越来越引人关注。当前中国经济持续的高速增长及城市化进程的日益加快，每年数以万计的城市高楼

学位

移动通信终端串口通信ARM处理器嵌入式系统短消息模块

TD-LTE SON中信令分析的应用研究

TD-LTE作为TD-SCDMA的后续演进技术与标准，受到全球运营商和设备商的广泛支持与参与。在网络建设初期必然存在很多问题，网络性能的好坏直接影响到用户感知程度，网络规划与优化显

学位

TD-LTE长期演进网络规划信令分析随机接入前导自动邻区关系

运动阴影检测与目标识别方法研究

当今科技发展日新月异,社会经济水平稳步提升,人口的流动性日益增大,大量的流动人口给社会治安带来挑战,传统的安防监控系统依靠人力对场景视频进行分析处理,没有充分利用计

学位

智能视频监控哈尔型特性局部二元模式运动阴影检测方向梯度直方图运动目标识别

供给侧结构性改革下的涂料企业(下)——2017年上半年回顾及下半年展望

透过数据看变化——回眸上半年rn山东乐化漆业股份有限公司rn面对持续低迷的经济形势、涂料行业原材料涨价及环保、安监大力整顿等各种不确定因素的影响,公司上半年仍取得了

期刊

基于二维条形码的数字水印技术

数字水印技术是信息隐藏技术研究领域的重要分支,是版权保护的重要技术手段。QR条形码具有信息容量大和保密性强等特点。将两者进行结合并加以应用成为当前一个新的研究方向

学位

数字水印QR条形码双向Arnold变换DWT奇异值分解

多人对话场景下的说话人分割聚类研究

与本文相关的学术论文