语声场景分析系统的设计与实施

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xxxhht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语声场景分析要解决的问题是针对一段包含有多个未知说话人的语音文件,发现其语声场景发生改变(如说话人的切换,语音和非语音的切换等)的位置,并将不同说话人的说话语段区分标注,将相同的说话人标注为相同的标签。作为说话人识别技术的应用之一,它解决的问题是,在待处理的测试语音中的说话人人数、说话人身份、说话人性别、说话人所在场景等信息都未知的条件下,检测和识别出各个说话人在什么时间段说了话,实现对音频文件中的不同说话人的语音进行有效分割和检测。语声场景分析系统有着广泛的应用前景,如,针对新闻广播、会议记录、影视剧集等音频资料,利用该技术实现对语音中的说话人进行检测和跟踪,高效的提取说话人的富文本信息。语声场景分析系统主要包括语音特征提取、语音检测、说话入切换点检测和说话人聚类这四大步骤。本文重点在以下方面进行了研究:(1)概括和归纳语声场景分析系统的发展现状和技术基础。(2)对法国阿维尼翁大学(LIA)提出的基于E-HMM模型的语声场景分析(LIA Speaker Diarization, LIASD)系统进行了分析与测试,发现了LIASD系统存在的问题。(3)为了改善LIASD系统的不足,实现了一个包含说话人提纯过程的语声场景分析(Purified-LIA Speaker Diarization, P-LIASD)系统,并分析了P-LIASD系统的不足。(4)为了实现一个稳定性更良好的语声场景分析系统,本文设计并实施了一套带有多模块的语声场景分析(Multi-Module Speaker Diarization, MMSD)系统(5)分别对系统中包含的核心算法,即语音检测、说话人切换点检测、说话人聚类、说话人提纯、短语段后处理等算法,进行了研究与设计,分析了MMSD系统的核心功能模块的效果及对系统性能的影响。(6)最后对比分析了LIASD系统、P-LIASD系统以及MMSD系统的系统性能,并指出了三者的优缺点,通过语声场景分析错误率(Diarization Error Rate, DER)指标衡量系统的准确性及稳定性。
其他文献
该文首先对话带高速调制解调器的各种新技术,特别是对调制解调器性能改进影响较大的多维格状编码和壳映射技术进行了较为深入的研究,从理论上分析了它们改善调制解调器性能,
作者通过对AC-3标准的深入研究和对其技术特性的不断摸索,掌握了AC-3实时化解码技术,在对算法、数据结构、编程方法等做了一系列优化后,做到了在Pentium350上对AC-3压缩编码
该文在了解供电部门对电能计量与计费的基本要求前提下,分析了其它电能自动计量与计费系统的实现方法,针对目前实际情况,提出了分布式电能计量与计费系统的研究方案.分布式电
该文阐述了声发射技术的产生和发展,国内外声发射技术的研究情况,研究了声发射源和机理、材料声发射特性、声发射检测中噪声来源处理手段等问题.在此基础上,通过对小波变换基
该文以研制中的某型号雷达景象匹配末制导导引头系统为背景,分析了该型号导引头地面支援设备的基本任务和技术要求,并在此基础上针对性地提出了该设备的模块化设计方案.该文
该文提出一种基于GA算法优化的模糊神经网络控制器.该控制器利用神经网络结构来实现模糊逻辑推理;并用GA算法对推理的隶属函数进行优化.同时用BP算法优化神经网络的局部参数.
电能量的自动计量与计费是目前供电部门迫切需要解决的一个问题,是随着电力系统管理的自动化而不断发展起来的.随着电能使用逐步走向市场化,对此问题的研究更成为一个热点.该
调频同步广播技术是近年来随着同步激励器和数字延时器的出现而提出来的调频覆盖方法.它是由多部发射机在不同地点使用同一调频波段频率,播出同一套节目对某一地区进行覆盖.
学位
现代科学技术的发展日新月异,极大地丰富和方便了人们的日常生活,生活水平的不断提高加深了移动业务需求多样化的发展趋势,诸如视频多媒体等移动业务宽带化特征日益凸显,这对