主题搜索引擎研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:loseunit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先概述了Web的产生及其发展历程,从而引出了网络检索问题,并分析了目前搜索引擎的工作原理及其研究现状。由于Web上海量的信息处于不断的变化中,通用搜索引擎己经很难再为用户提供一个全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请求。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。 本文在仔细研究当前主题搜索引擎相关文献的基础上,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出了一个主题型Web搜索器(TSWS),它是主题搜索引擎的核心。接下来详细论述了TSWS三个主要部分HTML解析器、Web爬行器和文本分类器的设计与实现。其中在HTML解析器的设计中,本文从HTML解析的一般概念入手,结合搜索引擎系统的特殊要求,建立了访问HTML语法树中链接结点的快速索引表,并特别考虑了解析器的容错性。在Web爬行器的设计中,本文结合对已收集页面内容的相关度评价,采用有效的启发式函数对待收集URL进行相关度预测,使得下载的相关网页数量最大化,不相关网页数量最小化,加快检索速度,节约网络资源。在文本分类器的设计中,用传统信息检索的空间向量模型改进了朴素贝叶斯分类器,提高了它的分类精度。最后本文也详细讨论了基于链接结构的Web检索技术的发展现状以及发展前景。
其他文献
目前,互联网上存在着各种各样的资源,而且信息量仍在快速增长着。在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。搜索引擎的出现,使用户搜索信息的
查询处理是任何信息管理系统的重要特征和组成部分。语义Web领域的智能查询处理问题已经成为研究热点,其与已有的查询处理工作最大的不同点是:使得基本的RDF数据存储具有重要
随着电信市场竞争的加剧,业务已经成为电信运营商参与市场竞争的关键元素。下一代网络以业务为驱动力,通过开放业务体系架构能够同时支持话音、数据和多媒体等多元化的业务。而
三维图形引擎是计算机硬件和软件开发的最新技术,实时性,交互性以及强大的漫游功能是其主要特点。三维图形引擎目前在很多领域内都有很广泛的应用,如军方的模拟实战系统以及
集数据采集、处理及通信于一体的无线集成传感器网络以其低廉的价格、便利的部署方式正得到越来越广泛的使用,对传感器网络各个方面的研究也成为目前学术界非常活跃的课题。
在大量的数据库应用中,如面向 Web 的数据集成、电子商务、数据仓库、数据库设计等,都需要用到模式信息。而操作模式信息的一个最基本的操作就是匹配,即将两个模式作为输入,产生
随着数据获取方式的多样性,数据挖掘和机器学习使用的数据集规模越来越大。而随着时间的推移,在大规模数据集的基础上,新的数据也在不停的加入进来,同时,数据集中已有的记录
分布式并行计算可以提供相对廉价且强大的处理能力,在研究和应用领域都得到了广泛的关注。负载平衡是影响分布式并行计算性能的重要因素之一,负载平衡策略的效率直接关系到分
随着社会的进步、科技的发展,互联网早已深入到人们日常生活的方方面面,成为人们生活中不可或缺的一部分。但是目前互联网面临着诸如扩展性、地址空间、端到端高性能传输、实
传统基于角色的访问控制(RBAC)系统需要在业务逻辑代码中加入访问控制逻辑来实现访问控制的细粒度。这种实现方式会导致系统代码的分散和缠绕,而面向方面的程序设计(AOP)可以