会议室环境下基于音频视频信息融合的多说话人识别

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:fenghuayi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传感器技术的不断发展和音视频处理技术的不断提高,利用音视频融合方法进行说话人识别已经成为当前身份识别领域重要的技术手段。一个典型的应用就是会议室环境下的说话人识别。本文以AMI语料库中的视听会议为仿真材料,利用音视频融合的方法对会议过程中的多说话人进行了识别研究,具体工作如下:文章首先利用说话长度、说话能量、说话次数等单一特征以及上述特征的有效组合,对会议过程中的最主要说话人进行了识别。并对各项特征及特征组合的有效性进行了分析和排序。之后,实验利用严格和宽松两种评判标准,对会议中存在多位最主要说话人的情况进行了讨论。接下来,本文以ICSI RT07s说话人识别系统为参考,设计了基于音频信息的说话人识别系统。在语音活动检测阶段,实验运用高斯混合模型为语音/非语音检测器建模。与ICSI RT07s系统中基于隐马尔可夫模型的语音/非语音检测器相比,基于高斯混合模型的语音检测器原理清晰、可扩展性好,是本次研究的创新之处。之后,实验对建模过程中涉及到的若干可调参数进行了优化,并运用各项可调参数的最优值完成了说话人建模过程。在视频识别阶段,实验首先从数学原理出发,比较了两种帧间差分算法的优劣,并运用效果较好的一种帧差法对视频片段中面部活动水平最大的参会人进行了检测,将该参会人识别为会议中的说话人。与国外基于MPEG视频压缩格式的检测方法相比,本文的帧差法可以在任何视频格式下使用,是本次研究的另一个创新之处。在分别得到音频和视频识别结果之后,本文通过贪心的匹配融合算法,对音频和视频识别结果进行匹配关联,完成了不同模态下识别结果的融合。实验运用58段同步的音视频语料对融合算法的有效性进行了测试。结果表明,随着测试语料长度的增加,识别准确率也随之增加。系统对于58段测试语料整体的识别率可达74.14%。与传统的基于单模态信息的说话人识别相比,利用信息融合手段进行说话人识别可以有效提高识别过程的持续性和鲁棒性。当一类信息受到干扰或发生遮挡时,仍然可以利用另一类信息的有效性,完成说话人的识别。此外,基于音频视频联合的说话人识别,可以使实验人员在识别出说话人语音的同时,进一步看到说话人的相貌,从而使识别结果更加直观生动。这些都是本次研究的意义所在。
其他文献
近年来,大学课堂教学理论研究不断深入发展,新的理论不断被提出,翻转课堂理论受到了广泛的关注与讨论。翻转课堂翻转的不仅仅是知识的传授与知识的内化,更是对教学理念、教学
与城市相比,乡村社会具有更明显的“自组织”特征,乡村规划需要注重对乡村社会组织规律的研究和认识。针对乡村社会组织特点,类似更新规划、社区规划的工作内容和方式方法可能在
会议
为了落实华中师范大学“985教师教育创新平台”项目的实施,教师教育资源研发与管理中心项目负责建设优质的免费师范生教师教育资源库。德育原理与班级管理课程资源库是教师教
提高农民种粮积极性的主要因素是加大生产投入,农业机械化发展对粮食安全具有重要意义.从农机补贴总量、农机补贴的目标、农机补贴目录、补贴的侧重点等几个方面分析了黑龙江
基于传送带式奶牛饲喂系统中换向装置的工作需求,对其组成结构进行了设计,并通过钢丝绳传动实现了直线往复运动,以保证饲料撒落于饲喂面不同区域,以及选用主动式步进电机推杆
互联网金融发展的速度越来越快,国内对其的监管却尚未形成良好的框架体系.构建互联网金融监管框架体系可以从人体免疫系统的运行机制出发.人体免疫系统是人体对内外执行防范
上海市第二期课程改革中明确提出要改变学生学习的方式,其中包括作业的改革,提出作业要个性化设计。为此,有必要了解学生如何看待做数学家庭作业的目的,以及探究他们在认识上
2020年4月20日,光明乳业发布2019年度业绩报告,报告期内,实现营业总收入225.63亿元,同比增加7.52%;实现净利润6.82亿元,同比增加29.60%;实现归属于母公司所有者的净利润4.98
国际农业发展基金现任总裁内旺泽的任期将于2017年3月31日结束。国际农业发展基金将在2017年2月14~15日召开的第四十届理事会上选举产生新一任总裁。
在中国加入WTO以后,随着棉花进口量的不断增加,棉花的关税配额持续被突破。从2005年5月起,中国以滑准税的方式对配额外进口的棉花征收进口关税,滑准税政策以减轻外棉进口价格