基于web的普通话新闻检索技术研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:gnaixug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代背景下,如何快速准确地从海量音频库中检索感兴趣的内容已经成为当前亟待解决的问题。传统的基于文本的音频检索并不能很好地解决这一问题,因而面向内容的音频信息检索便受到了研究者们的广泛关注。本研究针对普通话广播电视新闻音频数据,探索了音频信息检索中的两项技术:基于样例的普通话新闻检索和基于大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)的普通话新闻检索。这两项技术虽然都是在新闻音频库中搜索与查询请求相关的音频片段,但前者的查询请求是音频样例,而后者的则是关键词或短语,它们分别对应音频样例检索和语音文档检索两个研究方法。本研究的主要创新和贡献包括以下几个方面:1.基于样例的普通话新闻检索算法音频样例检索中,高维特征向量的提取过程复杂且相似度计算量大,针对该问题,本研究探索并实现了基于语谱图的音频指纹提取算法。结合音频指纹特征,提出了基于倒排索引的检索算法,克服了顺序索引方法在检索时需要遍历数据库的难题,显著地加快了检索速度。同时,提出了基于语音活动检测的改进检索算法,有效避免了查询音频过长给检索速度带来的负面影响。2.基于大词汇量连续语音识别的普通话新闻检索算法本研究首先提出了一种文本无关的新闻故事分割算法,与绝大多数在语音识别结果上实现新闻分割的算法不同,它直接在音频流上进行故事分割,并能取得较好的分割效果。其次,LVCSR系统将新闻故事音频转换为文本前,需要对音频预处理,本文研究了LVCSR系统的前端处理算法。同时,为了充分利用说话人分割聚类中的话者信息,以此提高音频分割的准确度,引入了两步新闻音频分割算法。在音频预处理的基础上,搭建了一个面向普通话新闻音频的LVCSR系统。最后,在检索算法方面,实现了基于Lucene的全文检索算法,并提出了基于词向量的相关检索词推荐算法,利用该算法可以返回查询关键词或短语的相关搜索。3.普通话检索系统的设计与实现基于上述算法的研究与改进,本文最终采用web界面设计并实现了一套普通话新闻检索系统。该系统不仅可以高效地完成基于样例和基于LVCSR的普通话新闻检索,而且提供了友好的用户交互,达到了实用化的程度。
其他文献
无线协作通信网络利用分布在不同地理位置的多个通信节点,形成一个“虚”多输入多输出(MIMO: Multiple Input Multiple Output)系统,能够更好地挖掘天线间的空间分集,进而实现高
随着移动通信技术迅猛的发展,用户对通信技术的需求也随着技术的不断发展变得越来越高。多输入多输出(MIMO)技术可以提供非常高的信道容量,以及低误码率。MIMO技术可以通过改善
近年来,交通事故频发,疲劳驾驶作为交通事故产生的重要原因之一,造成了巨大的人员伤害和经济损失。但是人们往往对醉酒驾驶的关注程度较高,而常常忽略了疲劳驾驶带来的严重后
高频和微波功率是国际计量局(BIPM)定义的无线电七个关键参数中最基本的参量,建立我国微波功率计量基准是确保功率单位统一、量值准确、测量有效并通过国际比对实现测量能力国际互认的根本。因此,微波功率国家基准测量技术的研究具有极其重要的经济社会效益和实用价值。本论文研究的内容为WR-15(50GHz-75GHz)微波功率国家基准测量技术,其核心目的是对该频段的功率量值进行复现,解决功率量值的溯源问题。
辐射源指纹识别技术是信号处理学科中一门新兴的研究方向。因此,本文通过对通信信号辐射源的个体细微特征进行分析与提取,并利用这些特征进行分类识别技术进行了研究。本文的
微波三维成像技术较传统的合成孔径雷达(SAR)成像技术可获得更丰富的信息,它能够准确地从背景噪声中分离出目标的空间位置及散射信息,有利于人们更加细致和精确地认识目标的
随着信息技术的飞速发展,人们对个人信息安全的强烈需求使生物特征识别技术收到了前所未有的关注。在众多的生物特征识别技术中,虹膜识别技术被广泛认为是最可靠、最精确的生
作为被ITU所接受的第四代通信标准之一,LTE采用了OFDM和高阶QAM调制等技术。与第三代移动通信标准相比,LTE可以提供更高的传输带宽和更高的频谱效率。但是,采用OFDM和高阶QAM
光学相控阵雷达在波束捷变、多波束扫描、低相干性以及高精度等方面,相对传统雷达具有很大的优势,应用日益广泛。液晶光学相控阵雷达具有体积小、重量轻、驱动电压低等优点,