搜索引擎关键技术研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户：asqw_

【摘要】

：

随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目、生产数据、学生的

【作者】

：

王正刚

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2008年期

【关键词】

：

搜索引擎全文检索互关联后继树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目、生产数据、学生的分数数据等等,非结构化数据则是一些文本数据、图象声音等多媒体数据等。据统计,非结构化数据占整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缺陷使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,而通过全文检索技术就能高效地管理这些非结构化数据。经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。从本质上来说,搜索引擎是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在电子邮件系统之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的信息并存储到倒排文件中,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索是搜索引擎的核心支撑技术。本文立足于一种新型的,优秀的全文索引模型——互关联后继树全文索引模型,研究互关联后继树全文模型与搜索引擎技术的相互贯穿与结合,以及互关联后继树搜索引擎若干关键技术的研究与实现。其中,主要对匹配度计算,搜索引擎与关系数据库的协同查询,搜索引擎排序算法等三个方面进行着重的研究与实验,在此基础上,提出了两个统一的公式来进行搜索匹配度的计算,不但简化了匹配度的计算过程,而且能够将各种可能的匹配情况都考虑周到;通过引入内存数据库的概念和实现技术,成功实现了搜索引擎与关系数据库的协同查询,使用户能够更加有效、方便、快速的获得需求的结果;最后,提出并实现了一个基于动态划分的多权值快速排序算法,减少了不必要的排序过程,只提取出需要排序的页面数据进行排序,大幅度提高了排序效率,减少了搜索引擎的响应时间。互关联后继树全文模型与搜索引擎技术的相互贯穿与结合以及互关联后继树搜索引擎关键技术的研究与实现,使其在搜索领域发展出属于自己独特的一套技术与理论。

其他文献

基于语义和动态QOS模型的Web服务匹配研究

由于Web服务的种种优越性及广阔的应用前景,自诞生之日起就受到许多机构和公司的认可与推崇,许多组织机构已将Web服务引入他们的商业流程中,并获得了直接的经济效益。然而随

学位

服务匹配语义相似度服务质量

基于数字视频图像处理的乒乓球运动分析研究

数字视频是由若干帧组成的图像序列，其中含有丰富的信息。随着计算机处理能力的提高和数字图像处理技术的发展，将数字视频中的帧分解出来并加以处理和分析，从而获得必要的信息，已

学位

视频跟踪图像分割区域增长双目视觉数字视频图像处理乒乓球运动分析

基于机器视觉的汽车类型识别算法研究

汽车类型识别是智能交通的一个重要组成部分。目前，传统的电磁线圈感应识别车型法由于对路面的破坏、维护困难、不可移动性等原因，使其发展受到了有大的限制。近几年车牌识别得

学位

智能交通交通监测车型识别图像处理

基于区分服务的无线传感器网络QoS路由研究

无线传感器网络是由一组传感器以Ad Hoc方式构成的无线网络,其目的是协作地感知、采集和处理网络覆盖地理区域中感知对象的信息并发送给用户。无线传感器网络具有自身的特点:

学位

无线传感器网络QoS最小跳数区分服务OMNET++仿真

面向语义网的本体存储管理技术研究

本体(Ontology)是对一个特定领域中重要概念的共享的形式化的描述,由于具有明确性和共享性,它可以作为领域内不同主体之间进行交流的语义基础:更进一步的,Ontology可以帮助机

学位

本体存储推理查询

信息过滤系统中特征选择算法的研究

随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息就是当前信息科学技术领域面临的一

学位

信息过滤特征选择分词文本分类聚类

压缩XML数据库查询处理方法的研究

近几年来,XML已经成为Internet上数据表示、交换和存储方面的标准,为数据库的应用开辟了一个崭新的领域,然而由于XML数据的半结构化特性以及XML数据所特有的路径表达式查询方

学位

文本压缩XML压缩XML编码XML索引XML查询

基于Petri网的工作流建模方法与应用研究

近年来IT技术在企业管理中发挥的作用越来越重要,现代企业的发展速度越快,其业务流程的变化越大,企业对工作流建模技术的要求也就越高。通过对现有的一些工作流建模方法的研

学位

工作流网工作流Petri网建模柔性

基于GLOBUS的数据网格副本管理关键问题研究

数据网格是网格领域中并行和分布处理技术的一个发展方向,其目标是实现对地理上广泛分布的大量异构数据资源进行共享,其中副本管理是数据网格中一个重要的组成部分。良好的数

学位

数据网格副本管理存储子域副本创建副本定位

基于遗传算法与模糊聚类的网络信息过滤系统的研究

随着Internet的发展和应用,越来越多的商务、日常活动通过Internet进行,网络与人们的生活越来越紧密。然而,网络是双面的,人们在享受网络所带来便利的同时,不可避免地接触到

学位

信息过滤遗传算法模糊聚类适应度函数相似度

搜索引擎关键技术研究与实现

与本文相关的学术论文