论文部分内容阅读
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目、生产数据、学生的分数数据等等,非结构化数据则是一些文本数据、图象声音等多媒体数据等。据统计,非结构化数据占整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缺陷使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,而通过全文检索技术就能高效地管理这些非结构化数据。经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。从本质上来说,搜索引擎是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在电子邮件系统之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的信息并存储到倒排文件中,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索是搜索引擎的核心支撑技术。本文立足于一种新型的,优秀的全文索引模型——互关联后继树全文索引模型,研究互关联后继树全文模型与搜索引擎技术的相互贯穿与结合,以及互关联后继树搜索引擎若干关键技术的研究与实现。其中,主要对匹配度计算,搜索引擎与关系数据库的协同查询,搜索引擎排序算法等三个方面进行着重的研究与实验,在此基础上,提出了两个统一的公式来进行搜索匹配度的计算,不但简化了匹配度的计算过程,而且能够将各种可能的匹配情况都考虑周到;通过引入内存数据库的概念和实现技术,成功实现了搜索引擎与关系数据库的协同查询,使用户能够更加有效、方便、快速的获得需求的结果;最后,提出并实现了一个基于动态划分的多权值快速排序算法,减少了不必要的排序过程,只提取出需要排序的页面数据进行排序,大幅度提高了排序效率,减少了搜索引擎的响应时间。互关联后继树全文模型与搜索引擎技术的相互贯穿与结合以及互关联后继树搜索引擎关键技术的研究与实现,使其在搜索领域发展出属于自己独特的一套技术与理论。