基于Lucene的全文检索系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:power400ljf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云影音智能终端是将个人媒体内容与互联网结合起来,使得所有的媒体内容都可以通过高清平板电视观看的一款三网融合的产品。在云影音智能终端中有海量的音视频资源,用户需要高效的检索工具来实现快速精准查找资源。但由于该终端是个独立的系统,无法直接使用百度等成熟的搜索引擎,需设计一个高效的全文检索系统。在全文检索系统的开源框架中,Lucene是使用Java语言开发的一个开放源码全文检索引擎工具包。利用Lucene提供的接口进行二次开发,可按需完成各种不同具体目的的全文检索系统。由于在云影音智能终端全文检索系统中文本分析的对象主要是中文,而Lucene提供的中文分词技术简单机械,而且其默认的结果排序算法所计算的结果优先度得分往往与实际不符,不能满足实际需求,因此需要对Lucene进行扩充和改进才能加以使用。设计实现了一个基于Lucene的音视频全文检索系统来检索数据。通过对中文分词技术的分析和研究,给出了一种GMM算法,该算法采用全局最大匹配的原则,在全局范围内寻找匹配最大长度字符串,力求提高分词精准度。此外,对排序算法进行了改进,建立了综合考虑出现次数及位置重要性的新公式来计算返回结果的优先度得分。系统运行结果表明,给出的GMM算法分词有较好的分词效果,返回结果的排序更符合用户要求,全文检索系统的查全率及查准率都保持在较高水平,且查询结果返回时间都在用户可接受范围内,可以满足实际需求。
其他文献
随着信息化的不断发展,数字信息呈现着惊人的增长速度,使得大量的数字资源面临着长期保存的难题。当前,数字信息长期保存的研究主要围绕保存元数据、系统架构和迁移等技术机制展
随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领
如今,由于互联网的发展速度愈来愈迅速,信息与资源的传播和发布也随之变得更加迅速和快捷,互联网上信息量的规模也因此日益巨大,这就导致信息检索愈加艰难了,不过幸运的是用户可以
交通系统是人、车、路、环境组成的动态系统,这个动态系统中的四大要素及其影响因素都在不断地发生变化,交通事故就是这个动态系统失调的结果。交通安全问题是困扰当今国际交通
景象匹配是一种依靠传感器、图像匹配等先进技术,对飞行器进行精确定位的辅助导航技术。景象匹配指的是将一个图像区域从同一场景的的其他设备得到的区域中定位所在位置或找
随着天文观测设备和技术的进步,天文观测数据规模的迅速增长使得如何存储海量观测数据以及如何能够迅速从中获取想要的信息成为难题。传统单节点的文件系统和关系型数据库在处
随着互联网的飞速发展,网络舆情广受社会关注。网络舆情研究内容涵盖社会科学和自然科学,是当前的研究热点。研究网络信息传播规律,有助于理解信息传播机制,分析影响信息传播
云计算是将存储资源、计算资源以及软件服务通过Intenet提供给用户的一种计算模式,用户不必去关心各种硬件和软件资源。在云服务计算模式中,针对云服务的大规模性、高复杂性
随着多媒体社交网络(Multimedia Social Networks,简称MSNs)的快速发展,用户和数字内容的“爆炸式”增长,方便了用户对数字内容的访问,同时也增加了大量的用户与用户,用户与
随着计算机网络与多媒体技术的迅速发展,人们可以轻易地对数字图像进行篡改及散布。图像信息的完整性、内容的真实性等安全问题已成为亟待解决的问题。因此一种确保图像数据真