基于单汉字索引的全文检索系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:owenzhong2012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索技术是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具。全文检索的一个重要应用就是办公自动化领域,随着我国办公自动化进程的加速,人们对全文检索的需求剧增。本文针对现有全文检索技术进行了分析,特别是对基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对地情信息这一专业领域的特点,提出了一种有效的基于单汉字索引的倒排文件存储结构及其检索方法,使查全率达到100%。应用上,本文设计和实现了地情信息中心基础数据库系统,针对PDF文档创建字索引和检索机制,并且定位关键字到页面的具体位置,高亮显示关键字。根据实际需要,本文设计实现了二次索引,一次索引是将关键字定位到包含该关键字的PDF文档,二次索引是将关键字定位到页面的具体坐标位置。
其他文献
随着新型技术云计算的提出,对于传统的IT应用和服务模式都产生了巨大的影响,云计算已经成为学者和企业研究的热点问题,云计算的服务模式已经逐渐商业化,随之出现越来越多的云
望面色是望诊的重要内容之一,指医生通过观察患者颜面五官的色泽变化,来判断整体及各相应内脏的健康状况,从而为我们的诊断和治疗提供依据。中医认为:“色为气血所荣,面为气
支持向量机作为基于统计学习理论的新的机器学习技术,采用了结构风险最小化原则和核函数的思想,能够较好的解决小样本、高维数、非线性等问题。因此,近年来支持向量机理论得
随着移动通信业务类型的增多和移动终端复杂度的提高,终端的软硬件故障率越来越多。为了解决此类问题,国际通信标准化组织OMA (Open Mobile Alliance,开放移动联盟)提出了DM
人脸在人类情感交流中起着决定性作用。随着数字化技术应用的普及和硬件技术的飞速发展,迫切要求能够更快速、更逼真的创建三维人脸模型。本文结合人脸结构生理学基础,定义人
随着计算机技术的发展与广泛应用,许多企业在其建设的过程中需要将一些分布的、异构的数据根据应用需求集成起来,以实现数据共享。传统的数据集成方法常常忽略了对数据的形式
互联网的出现与发展,使信息资源从贫乏时代进入到极度丰富的时代。伴随着互联网的迅速发展,BBS早已成为人们发表言论,交流信息的重要场所。当今世界经济的飞速发展,人们开始
转基因标准物质是对转基因产品进行检测和溯源的关键,随着网络的发展,联合量值已成为转基因标准物质定值的重要方法之一。本文针对转基因标准物质联合量值对象复杂、流程混乱
目前解决现行Web不能自动处理海量信息的有效途径是语义Web。本体作为一种领域知识概念化的方法,是语义Web的基础。Web自身具有的分布性使得不同的用户根据各自的应用需求建
随着互联网与信息技术的飞速发展,人们都在共享并利用网络中的信息资源,但网络安全问题也变得日益严峻。针对网络攻击、非法入侵等都可能导致应用系统的关键信息外泻等问题,