主题爬行器相关技术的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zcxwlh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在浩如烟海的Web信息中更好地找到用户关心的信息,是搜索引擎面临的一个极大的挑战。主题爬行器通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是找到对用户更准确、有用的信息。 本文以一个下载招聘网页的主题爬行器系统的设计和实现为背景,对有关技术进行研究。为了实现主题相关性的判别,系统使用隐Markov模型对招聘网页进行建模,并利用这一模型和Vierbi算法判断一篇网页是否主题相关,即是否为招聘网页。之后,本文还将这一方法与基于文本分类的方法进行了比较。结果表明,这一方法要好于基于文本分类的方法。在爬行器爬行过程中,系统使用朴素贝叶斯文本分类算法学习指向招聘网页的链接的文本特征,并根据学习的结果对待下载的链接所指向的网页是否为招聘网页进行预测,优先选择下载那些主题相关的网页。实验表明,这一爬行算法在下载主题相关网页的效率上要好于广度优先算法和BestFirst算法。 由于系统中文本分类的算法起着非常重要的作用,本文对支持向量机、K最近邻、朴素贝叶斯等常用文本分类算法进行了比较和分析。另外,本文还讨论了系统所使用的基于JavaCC的文本分析、HTML分析、基于文档向量模型的网页表示、基于多线程的下载调度等技术。
其他文献
随着并行技术和并行语言的发展,处理并行语言的并行编译技术,将串行程序转换成并行程序的自动并行编译技术正在深入研究之中。语法分析是编译系统设计最重要的内容之一,而扩增式
在当前的网络信息时代,数据信息不仅庞大而且呈多样化。为了充分利用Web上的数据信息,信息集成已经成为一种必然的要求。XML作为兼具可扩展性及灵活性的通用数据传输格式,越来越
光学字符识别(OCR)是指将纸上的文字转化为计算机所能处理的形式(如ASCII码)的过程。手写体字符识别是光学字符识别的一个分支,手写体字符识别在邮政信件分拣、银行票据的自
虚拟现实技术(VR)一直是信息领域研究、开发和应用的热点,它将通信技术、信息技术、计算机硬件和软件技术等前沿科技交叉在一起,提供给使用者一种身临其境的感觉,即沉浸感。实现
高级量测体系(AMI)是智能电网的一个重要组成部分,近年来得到了越来越多的研究和应用,是当前的一个研究热点。通过AMI,电力公司不仅可以收集、存储、分析和提供来自智能电表等设备的相关数据,而且可以向智能电表等设备发送控制信息,提供远端设备的固件升级服务,实现了电力公司和用户之间的双向通信和互动。本文重点研究了AMI数据转发机制和应用层安全机制。在数据转发机制方面,提出了一种以IPv6的引入与增强型
目前国内电信运营支撑系统中的信息共享不充分以及数据备份冗余,电信管理论坛提出的共享信息模型的方法,通过信息共享的方式集成现有系统,打破信息孤岛。电信企业的数据模型有很
网格系统是将地理位置分布、系统异构、动态变化的各种资源,通过互联网连接起来,使用标准的、开放的和通用的协议和接口,向用户提供非平凡服务的非集中控制环境。网格计算技术已
近年来,随着无线局域网(Wireless Local Area Network,WLAN)的高速发展,IEEE802.11标准不断普及。IEEE 802.11定义了两种信道访问机制:分布协调机制(Distrjbuted Coordinated Func
北京2008奥运会是中国历史上第一次主办的奥运会,届时来自世界各国的有着不同文化背景、说不同语言的各类人员将云集北京。中国作为2008奥运会的主办国家,北京作为2008奥运会的
近几年,数据流在股票交易、网络流量监控、网络安全监控、电信通信记录、传感器网络等许多领域有着广泛的应用。简单地说,数据流是无限的、连续的、快速的、实时的数据集合。由