全文数据库若干关键技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:lwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的数据,特别是非结构化数据的爆增,人类从中获取信息的需求也越来越大,如何从全文中获得信息,是一个传统的关系型数据库系统(RDBMS)解决起来比较低效的问题。全文检索技术应运而生,它的优势在于专门为了解决全文数据而设计的高效的存储结构和高速的查询速度以及多种的查询接口。   本文是作者在这个方向上的探索性研究的成果。本文内容基于一个有效的全文检索系统的开发工作。大致包含以下主要内容:   1)全文检索系统的过程和框架流程是本文第二章介绍的内容。   2)本文在第三章介绍了全文检索系统的核心技术——索引模型的研究现状后,重点选择了新颖的互关联后继树模型作为系统的核心来介绍。   3)本文第四章在给出本系统的结构图后,对互关联后继树模型进行了从二元到三元的改进和实现,对于多文档的索引结构进行了存储优化。在介绍了系统的主要接口实现方法后,本章给出了本系统和基于其它全文检索技术的系统在时间和空间上效能的分析和实验数据的对比。最后本章针对后继树模型对查询时的缓存技术进行了研究和实现,并提供了实验数据。   4)第五章重点介绍作者实现的检索系统的多种查询功能。包括简单的字符串匹配,有序,无序的临近度查询和前缀查询等。然后研究并在系统中实现了对结果文档的排序,此种排序是基于综合了出现次数和每个匹配的临近度的文档匹配函数。本章的最后用简化的查准率曲线对前述的排序方法进行了评价。   5)本文的最后,用一章的篇幅介绍基于上述系统的核心API在一个与关系数据库结合进行查询的项目中的应用情况。   
其他文献
随着网络的发展,传统防火墙单一控制点逐渐成为网络性能的瓶颈及安全隐患,为了克服传统防火墙的局限性,分布式防火墙的概念应运而生。在分布式防火墙中,安全策略统一制定,由各主机
对于科技文献的浏览和检索,传统的基于关键字的文献检索和浏览方式难以对大量信息进行整体的多角度揭示,同时,关注的文献信息形式单一,忽视了文献之外的信息及关系,使得浏览
数据挖掘技术自产生以来就被应用于多种行业,在应用中显示了其重要的经济和决策价值。数据挖掘技术与具体的行业相结合,为企业和管理机构提供决策支持,成为各机构发展的趋势。随
随着计算机计算速度的飞速提升,对信息的加密强度也随之提高。目前广泛应用的RSA(Rivest-Shamir-Adleman)算法已经不能满足人们在安全性能上的要求。拥有更高加密强度的椭圆
在汽车行业,市场竞争日益激烈,中小企必须不断调整发展战略。我国的中小企业信息化相对落后,它们与遍布全国的销售和服务网点之间的信息沟通大多依赖于传统的电话和传真,信息
虚拟仪器(简称VI)是一种功能意义上的仪器,由个人计算机、仪器硬件及应用软件组成,由仪器硬件采集外部信号,通过软件编程来实现仪器的显示及测量等功能。本论文首先讨论了通用串行总线接口(USB2.0)应用于数据采集的现状和发展趋势以及传统示波器的优缺点,比较了几种传统的数据传输方式和新型数据传输方式的优缺点,然后介绍了采用USB进行数据传输和应用于虚拟仪器测量系统的优缺点。接着简洁而系统地介绍了USB
网络管理一直以来都是计算机网络的重要研究领域,当前随着网络应用的飞速发展,越来越多的新技术被运用到网络中,不同厂商结合网络标准协议和自已的特有技术,开发出新的网络互联设
软件水印是一种新型的软件保护方式,与传统的软件保护方法不同,它不仅仅依赖于加密技术,而是通过在软件代码中嵌入某些特定的秘密信息,在必要的时候,可以通过从软件中提取出
实际业务流程的多变性导致业务系统的开发、维护过程异常复杂。采用具柔性的开发框架,通过配置集成系统是解决该问题的有效手段之一。基于有限状态自动机的开发框架FSMDF可以
网格计算通过使用跨域的不同组织机构的计算和存储资源为用户提供统一的访问接口。正是因为跨域的资源访问,安全在网格系统中是一个非常关键的问题。在Globus定义的网格平台