【摘 要】
:
新闻广播语料自动标注技术的研究对于建立大规模语音语料库、语音识别技术、音频检索技术的发展都有重要意义.新闻广播语料的自动标注包括音频属性标注和文本标注两个方面.
论文部分内容阅读
新闻广播语料自动标注技术的研究对于建立大规模语音语料库、语音识别技术、音频检索技术的发展都有重要意义.新闻广播语料的自动标注包括音频属性标注和文本标注两个方面.
在音频属性标注部分,区别于传统方法将此任务分为分段、聚类、分类三个阶段的做法,本文改变标注流程,采用音频分类、语音段切分、语音段聚类依次进行的框架,使得标注准确率大大提高.音频分类步骤首先将音频流划分成非语音/男声语音/女声语音三类,非语音段直接丢弃;随后的语音段切分步骤采用一个二阶段的方法,将男声语音段和女声语音段继续切分到每段只含一个说话人;最后的语音段聚类步骤将同种声学条件的语音段,即同一个说话人的语音段全都聚合到一起.
将分类步骤提前,不仅避免了对非语音段进行后续的无意义操作,更为分段和聚类步骤提供了良好的指导作用,使得分段步骤不会漏掉男/女声、语音/非语音切换点,也可以防止聚类步骤错误地把男声语音和女声语音聚在一起.
分段步骤采用的两阶段方法,既保证了分段的准确率,也使得算法时间复杂度较低.分类和分段步骤后的边界调整使得结果更加精确.
音频属性标注之后进行文本标注部分.标注文本需要借助语音识别技术.在音频属性标注部分得到的标注信息使得自适应技术的应用成为可能.为提高语音识别的准确率,对每种声学条件都进行声学模型自适应,并将长段切分成短旬,最后进行语音识别.
其他文献
WS-BPEL(Web Service Business Process Execution Language)是Web服务规范族中服务复合层的重要标准。WS-BPEL支持通过对Web服务的编制(Orchestration)来建模业务流程,从而使
由于性能价格比高、可扩展性和可用性好等特点,机群系统已成为现代超级计算机和超级服务器的主流并行体系结构.和其它并行体系结构相比,机群系统的主要性能瓶颈在于结点间的
随着网络技术的发展和网络规模的日益扩大,人类对互联网的依赖程度日益增强,而网络性能和网络安全一直是困扰网络研究和管理的主要问题.网络流量监测通过网络流量测量获取网
随着大数据时代的到来,数据集成变得越来越重要。ETL(Extract,Transform,Load)是一种数据集成工具,通常包括三个阶段:数据抽取、数据转换&清洗、数据装载。而传统ETL和ELT执行过
信息中心网络(Information-Centric Networking,ICN)将信息作为网络体系结构的核心,并给每块信息赋予唯一的名字,网络中的数据请求、应答和存储均以带名字的信息为基本单元。目前,
笔记本电脑和个人电脑硬盘被盗导致硬盘数据泄密,已成为信息安全领域人们关心的重要问题.保障硬盘数据机密性的基本安全技术是硬盘数据加密,但采用软件加密存在降低系统性能
随着信息化的不断深入发展,不可能有单个应用服务系统能够囊括一个企业或高校内部的所有服务,用户接触的应用服务系统越来越多,而随着各个高校间相互合作交流的增加,用户使用其他
随着信息技术的发展,电子文档在各行各业中的应用越来越普及和重要。但是,随之而来的信息安全问题也日益引起人们的关注。据调查,电子文档由于内部人员泄密而造成的损失远远大于
近年来随着许多P2P系统地出现,P2P技术逐渐成为人们研究的热点。P2P技术是基于一种对等的思想,这种思想正在改变着人们对网络模式地思考,有人预测以此种技术为基础的网络模式