面向广播新闻的语音自动检索技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gggmtdh2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音检索是指对于用户输入的查询请求,从语音库中检索并返回满足该请求的语音片段。随着科技的日益进步和互联网的飞速发展,人们接触到的多媒体信息也呈指数增长,这其中广播新闻语音占据了很大的比重,且易获取,具有重要的科研价值。而利用语音检索技术可以帮助人们在海量的多媒体数据中迅速找到自己感兴趣的内容,因此本课题有着重要的研究意义和实用价值。语音检索技术其实是语音识别技术与信息检索技术的有机结合,然而简单的技术结合会导致检索性能严重依赖于识别系统的识别精度。因此在识别系统性能一定的情况下,研究者将精力集中在多候选的识别结果形式上,常见的多候选识别形式有N-best、网格Lattice和混淆网络,其中N-best未包含所有的候选结果,而Lattice结构含较多冗余且不利于建立索引,因而往往使用结构更紧凑的混淆网络形式。另外,在识别基元的选择上,以词为基元无法避免集外词问题,因此在汉语语音检索技术的研究中常采用基于音节的网格结构。本课题首先利用上下文相关技术对识别系统中的声学模型进行训练,重点分析了模型训练过程中参数共享策略及高斯混合数的影响,并结合语言模型建立了大词汇连续语音识别系统,接着利用向量空间模型在One Best识别形式上完成了语音检索基线系统。而对于包含多候选结果的网格形式,利用前向后向算法计算出每个候选项的后验概率,在此基础上进行聚类、剪枝等操作,生成了结构更加节凑的混淆网络,并通过改进的向量空间模型建立索引,搭建语音检索系统。此外,本文对检索系统的基元进行对比研究,如果以词为基元,则无法解决集外词查询问题,且系统的召回率较低;而以音节为基元,又会降低检索系统的准确率,因此本文提出一种基于后向融合的多基元混合检索系统。实验表明,采用上下文相关的声学建模技术可以很好的适应发音环境的变化,提高了识别系统的准确率和鲁棒性;改进的向量空间模型能更好的体现特征向量在文档中所占的比重,可以提高检索系统的检索精度;而多基元混合检索系统的使用不仅可以从根本解决集外词问题,而且能使系统在准确率和召回率上达到很好的平衡。
其他文献
嵌入式设备是数字化时代的一大主流产品。嵌入式软件是数字化产品的核心,而嵌入式操作系统和开发工具又是嵌入式软件的基础和龙头。在嵌入式软件开发过程中,调试工作最终需要
数据分类是按照一组数据对象的特征给出数据对象数学划分的过程,已经在统计学、机器学习、神经网络以及专家系统中被广泛研究。近来,它又成为数据挖掘的一个重要研究方面。实际
目前,校园网络正在飞速地发展,这就造成网络中服务器剧增,应用系统急速增加。另外,由于许多应用系统都是各自管理自己的用户,使得同一用户在使用上网、收邮件,选课和网上学习等不同
近年来,由于我国汽车行业的迅猛发展,汽车配套零部件生产厂家为提高产量,大量采用新的生产技术,不断扩大生产能力和提高生产自动化程度。起动机性能自动测试系统就是适应汽车起动
尺寸标注是工程制图过程中相当重要的一环。没有尺寸标注的产品设计是完全没有意义的,是根本不可能加工出产品的。统计表明,尺寸标注工作占整个工程图纸绘制工作量的 40%-60%。当今的一系列的计算机辅助设计软件,典型的如 Autodesk 公司出品的ACAD 软件,提供了强大的绘图功能,使得工程制图的绘图速度和绘图质量得到很大的提高。然而,图形绘制初步完成后,对于尺寸标注系统的信息检查,仍然依赖于设计师
随着信息技术的不断发展,人们收集了大量的数据,迫切的需要将数据转化为信息。人们对信息技术的期望从基本数据处理到关系信息系统到辅助战略决策的决策支持应用。基于数据仓库
网格是近年来出现的一组架构在互联网络服务之上的新兴技术,旨在支持虚拟组织的资源共享与协同工作。人们承认网格是下一代软件技术之一,但对网格“革命性体系结构”的构成、网
本文主要实现了一个基于支持向量机的中文网页内容的自动分类系统,介绍并实现了局域网内通过网卡截获网络数据报并对数据报进行重组,生成了HTML页面,再结合HTML页面内容提取技术
SEAS超级电子文档系统是由东北大学软件中心研究开发的,专门用于各种办公文档、工程图纸、文书档案、图片资料、各种图书资料等知识和信息进行计算机管理的综合系统。它集成了
虚拟手术仿真(Virtual Surgery Simulation)是专门用来模拟在手术过程可能遇到的各种现象的虚拟现实(Virtual Reality)应用系统。其研究内容包括对医学数据的交互与可视化、