面向新闻语料的汉语语音关键词检测技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wumou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音关键词检测(Spoken Term Detection, STD)是指用户提供文本形式的查询请求,系统从语音资源库中返回与用户查询相关的语音片段。它是语音识别的一个重要领域,有着广阔的应用前景。语音关键词检测系统一般分离线建立索引和在线检测结果两个阶段,质量好的索引往往能提高系统检测的准确性。在实际的系统中,通常基于语音识别的结果为语音资源库建立索引。由于Lattice有着结构合理、信息含量丰富的优点,目前大多数语音关键词检测系统都是基于Lattice建立索引的。Lattice本身包含了声学似然比和语言模型概率,因此可以很方便的获得Lattice中局部路径的后验概率,将其作为局部路径的置信测度是建立索引的一种简单有效的方法。但是传统的N元文法模型(如二元文法,即bigram模型)没有考虑当前观测词和与其相隔一定距离的词间的相关性信息,因而存在一定的信息丢失。本文利用长距离的bigram模型,能够从不同的层次表达单词之间的语法和语义信息,基于Lattice图形结构和长距离的bigram模型而不是传统N元文法模型建立索引,将会改善索引的质量和系统的检测性能。本文考察了基于不同距离bigram模型的语音关键词检测系统的性能,结果表明,整合多种距离长距离bigram模型语音关键词检测系统的检测结果,能够获得比基于传统N-gram模型的语音关键词检测系统更高的识别召回率。在面向新闻数据库的语音关键词检测系统中,新闻语音数据是构建语音识别器的理想语料。在语音关键词检测系统的前端,需要构建语音识别器将语音资源转化为文本表示。但是目前的商业新闻语料普遍存在标注不够精细的问题,标注是段落级而非语句级,因此不能直接用来完成语音识别的相关任务。本文提出了一种基于语音识别技术的自动切分新闻语料的方法。该方法构建线性的识别网络,并在句间添加可选的静音模型对不够精细的语音段进行解码,之后根据语音帧在静音模型上是否驻留以及驻留时间的长短来判断是否需要对段落级的语音进行切分。实验表明,本方法在语料时长低于11分钟的情况下具有较好的性能。
其他文献
随着信息技术的高速发展,面向服务的架构(SOA)的出现极大地提高了软件开发的效率,但同时由于Web数据与资源共享程度的不断提高,资源的安全问题却变得越来越严重,如何支持分布式环
随着数据中心应用提出的需求不断变高,数据中心网络作为数据中心的重要组件,其负载也变的越来越大。这样导致拥塞情况频繁的发生,容易形成一种被称为incast的吞吐量大幅下降的现
多点监测无线传感网络中,由于节点能量有限和数目众多的特点导致网络的寿命受到限制。网络中数据包的无线收发消耗了节点的大部分能量,在无线传感网络内部的传感数据汇集过程
本文根据WSN网络自身的特征,给出了路由协议所需要的设计原则,详细分析了多路径路由协议,基于这些多路径路由协议的特点,开展了针对SMR协议的进一步研究。同时针对基本的蚁群
全球变暖与人类活动产生的温室气体和气溶胶有直接联系,而人类对温室气体的认知水平高于气溶胶。大气气溶胶不仅通过吸收和散射太阳辐射直接影响大气系统的热量平衡,而且作为云
互联网的飞速发展使得人类的信息总量呈现出指数级增长的趋势,为了使用户能够更快更准确地在海量的资源中找到与当前需求相关的信息,信息检索技术应运而生。目前,搜索引擎作为信
人脸识别技术是计算机视觉领域中的一个重要研究方向,被广泛应用于安防监控、金融系统、电子商务等场景。深度卷积神经网络的发展和海量数据的涌现,使得人脸识别的技术可以达到非常好的效果。不过与此同时,网络结构的复杂度越来越高,规模也随着增大。另外,与理论研究的场景不同,在实际应用中,基于这些网络结构的人脸识别技术将会遇到非常多的挑战,如系统容量、算法准确率、开发简易性等等。现有的深度卷积神经网络模型通常对
学位
科技项目检测属于文档复制检测技术的一种应用类型,它规范了科技项目奖励的制度,是检测同一项目是否重复报奖的一项重要措施。科技项目奖励机制旨在对已有的科技成果给予奖励,肯
随着我国教育事业的发展和教育思想的进步,传统的考试方式暴露出越来越多的弊端,无纸化在线考试系统得到了广泛的普及和应用,但还存在许多问题,尤其在智能阅卷领域。目前,针
随着Web2.0网站的日益发展,用户除了是网络资源的浏览者外,同时还是资源的生产者。社会标签系统是Web2.0的一个典型应用,用户主动产生标签,并通过标签标识、管理和发现信息资源。