基于RSS的搜索引擎框架的研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：q19891210626

【摘要】

：

随着计算机与互联网的日益普及与应用，在10年左右的时间里互联网上至少产生了50亿的网页，浩如烟海的互联网信息极大地促进了搜索引擎技术的蓬勃发展，诞生了我们所熟知的Google、

【作者】

：

黄志权

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2009年期

【关键词】

：

搜索引擎 RSS爬虫框架蜘蛛爬虫倒排索引中文分词开源代码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机与互联网的日益普及与应用，在10年左右的时间里互联网上至少产生了50亿的网页，浩如烟海的互联网信息极大地促进了搜索引擎技术的蓬勃发展，诞生了我们所熟知的Google、Yahoo、Baidu等一大批搜索引擎。据CNNIC统计，搜索引擎已成为继电子邮件后的第二大应用[1]。目前搜索引擎主要发展方向有通用搜索引擎以及垂直搜索引擎两种，两者的主要区别是信息覆盖的领域和范围，但是两类搜索引擎反映的信息普遍时效性较差。网络爬虫是一种对远程信息资源进行抓取的网络应用程序，它把远程信息抓取并保存到本地。Lucene是一种开源的通用本地信息检索框架，相对于传统的一些信息应用提供了更快的反应速度。RSS(ReallySimpleSyndication)，也称聚合内容，作为一种网络信息推送技术在各大门户站点得到了广泛应用。RSS订阅机制使我们可以及时地获取最新资源信息，摒弃过时信息的干扰。通过对网络RSS资源的抓取检索发现信息能够充分保证信息的及时性，这也正是本文的研究目标。本文在阅读了大量参考文献的基础上，对部分开源蜘蛛以及Lucene代码进行深入分析研究，提出了一种针对网络RSS信息抓取并检索的方案：基于RSS爬虫的搜索引擎框架。本文的主要工作及创新性可体现在以下几个方面： (1)通过对网络爬虫Jobo基本原理以及部分开源代码进行研究，完成了RSS网络爬虫的设计编程工作，针对性地设计并实现了代码框架：利用Tidy将Html内容转化为DOM树形式，遍历DOM树提取网页内部包含的文本链接地址以及图片链接地址；利用MD5算法计算网页地址的32位hash值表示已抓取网页并存储为文件列表形式，新的待抓取网页地址也利用相同算法计算后与文件列表中的值对比，有相同值就表示已抓取过，以此来屏蔽已抓取网页连接；网页地址32位hash值存储过程中实现了缓存机制，提高了磁盘读写效率。 (2)探讨了Lucene提供的分词，过滤，转换等过程，实现了以ICTCLAS中文分词系统为基础的自定义分析器； (3)研究Lucene网页索引过程，针对性的设计了多线程索引提高索引效率，结合项目经验实现了基于RSS的搜索引擎，实现了所检索信息的及时性。

其他文献

基于聚类分析的社会网络社团划分方法研究

近年来,随着Web2.0的发展,社会网络越来越受到更多学者们的关注和研究。在社会网络的众多性质中,社团结构是其最重要同时也是最具有研究意义的性质之一。通过社团的划分,我们

学位

社会网络社团划分聚类分析相似度系数遗传算法

基于工作流面向服务的分布式协同系统研究

面向服务架构SOA(Service-Oriented Architecture),与面向过程、面向对象、面向组件一样,是一种软件组建及开发的方式。SOA可以理解为“抽象、松散耦合和粗粒度”的软件架构

学位

面向服务的架构Web Services工作流计算机支持的协同工作

基于ARM的电机物理量采集分析单元的设计

电机作为一种重要的机电产品，广泛的应用于从工农业生产到人们日常生活的各个领域。为了保证电机的质量，以及对电机的性能进行研究分析，电机测试是必不可少的一个环节。近年来，计

学位

电机ARM处理器电物理量数据采集

基于QoS的网格资源管理及容错策略的研究

网格资源管理系统是网格的核心组成部分。由于网格是一个开放、动态的互联网并行环境,用户可以从网格的任何地方向网格平台提交应用,而且网格所固有的动态性特征,使得网格资

学位

调度QoS可靠性QoS容错策略节点备份

基于遗传算法的关联规则在电视受众分析中的应用

受众,是对于大众传播中接收者的统称,一般是指通过大众传播媒介接受信息的人,包括报刊读者、广播听众、电视观众以及互联网的网民。由于受众是传播活动的目的地,人们不断地改

学位

受众分析遗传算法关联规则

重建CT牙列图像中缺失轮廓线方法的研究

适于仿真需要的CT图像中牙列轮廓的快速提取,是基于CT图像的成像特点,对于成像后相邻组织间丢失的轮廓,采用相对自动的办法将其生成。本文采用Amira医学图像三维建模软件,综

学位

CT图像牙齿轮廓提取样条曲线三维重构

TTCN-3编译器测试用例集自动生成研究与实现

TTCN-3语言编译器实现的复杂性,使手工构造的测试用例集无法对编译器质量加以有力保证。引入测试用例自动生成,成了一种必然选择。通过总结手工测试经验,结合编译器构造、程

学位

TTCN-3编译器测试测试用例自动生成层次化生成方法属性文法分析树

视频中车辆检测与跟踪方法研究

近年来,伴随着社会经济的发展,道路交通也迅速发展,从而造成交通环境相对复杂。为解决道路交通迅速发展所带来的各种问题,智能交通系统的研究被提到了重要位置,利用计算机视

学位

背景提取车辆检测阴影去除车辆跟踪

云存储数据隐私保护编码研究

伴随着云计算的迅速发展，云存储服务也应运而生。云存储大大提升了存储资源的利用率，降低存储成本。无论传统的单机存储还是当前的云存储，只要有数据的地方就有数据安全问题。“

学位

云存储数据安全隐私保护PPC码

一个WEB文本过滤系统设计与实现

随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,Web文本信息过滤技术已成为一个研究热点。本文在前期课题IPCG控制网关的研究基础

学位

网页过滤在线过滤离线过滤自适应信息过滤语义倾向

基于RSS的搜索引擎框架的研究与应用

与本文相关的学术论文