说话人日志系统的实现与性能研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:zhaoyangfei1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人日志通常被描述为解决“谁什么时候在说话”(“Who spoke when?”)问题的一个系统。目标是在没有任何预信息的情况下(即没有预先知道说话人的任何信息,如说话人性别,年龄,人数),将一段连续的语音拆分成各个独立的小部分,并将各个语音片段归结到不同的说话人身份下。说话人日志在语音文本标定,自动语音识别等方面有多方面的作用,也可以作为基于说话人的算法(如说话人追踪,说话人识别)的前端组成模块。目前国外已有多家机构进行了说话人日志的研究,但国内此方面的研究较少,且限于广播环境说话人日志,少见会议环境说话人日志研究。   本文借助HTK工具包完成了说话人日志系统的C语言完整实现。包括预处理,语音/非语音检测,聚类初始化(朋友/敌人算法),迭代聚类,结果输出与标定。完成了系统性能标准化测试和错误率(DER)计算。   在此基础上本文对MFCC,PLP两种声音特征参数说话人日志系统的性能进行了比较分析,发现PLP错误率相对MFCC高约8%。   本文将音调参数引入说话人日志系统,采用MFCC和基频相结合的参数,使说话人日志系统性能得到提升。其中,为了避免基频提取算法固有的不稳定性的不利影响,本文提出并采用了一种基频参数的预处理方法。   系统最好错误率为28.4%,平均错误率达到了NIST2009测试中等水平。
其他文献
无线个域网(Wireless Personal Area Network,wPAN)是沟通物理世界与信息世界的一个重要桥梁。它的出现显著改变了人类与自然界的交互方式,拥有广阔的产业前景。目前,WPAN正
实时功能磁共振通过在线分析数据,实时呈现分析结果,为传统的功能磁共振提供了更广阔的应用前景。这种新的技术出现,可以用来监测扫描过程中的数据质量,快速功能定位以及进行
双/多基(站)合成孔径雷达(Bi-andMultistaticSAR)由于其收发平台分置,使得该体制的系统灵活性高,且具有传统单基站SAR所不具有的优势,因而是SAR领域研究的一个热点方向,受到各国
目的 观察鹿茸多肽对冈田酸(OA)诱导的小鼠海马神经元HT22细胞损伤模型中磷脂酰肌醇-3激酶(PI3K)、蛋白激酶B(AKT)、半胱氨酸蛋白酶-9(Caspase-9)表达的影响,探讨鹿茸多肽对H
地面运动目标检测(GMTI)是合成孔径雷达(SAR)的重要功能之一,关于它的研究也从未间断,由最初的单通道SAR动目标检测方法发展到后来的多通道检测方法。相对而言,多通道SAR GMTI具
稻瘟病是水稻上重要的病害之一,其病原菌为子囊菌Magnaporthegrisea。了解M.grisea的致病机理不仅有利于稻瘟病的防治,而且作为研究植物病原真菌与寄主互作的理想模式系统,对于
随着集成电路工艺进入纳米时代,VLSI漏电功耗迅速增加,本文在功耗调度方面,基于漏电流功耗随工作温度升高而增加的电热耦合效应,首先针对多核片上系统(MPSoC)进行降温降耗的
题记:刘禹锡“沉舟侧畔千帆过,病树前头万木春”.原意为翻覆的船只旁仍有千千万万的帆船经过;枯萎树木的前面也有万千林木欣欣向荣.此诗运用比喻,借用自然景物的变化暗示社会
期刊
学位
目的:本研究通过构建人巨细胞病毒(human cytomegalovirus,HCMV)皮层蛋白pUL76的保守N端和非保守C端的真核表达载体,转染至真核细胞,确定pUL76引起染色体损伤的决定序列。方