基于RSS的搜索引擎框架的研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:q19891210626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与互联网的日益普及与应用,在10年左右的时间里互联网上至少产生了50亿的网页,浩如烟海的互联网信息极大地促进了搜索引擎技术的蓬勃发展,诞生了我们所熟知的Google、Yahoo、Baidu等一大批搜索引擎。据CNNIC统计,搜索引擎已成为继电子邮件后的第二大应用[1]。目前搜索引擎主要发展方向有通用搜索引擎以及垂直搜索引擎两种,两者的主要区别是信息覆盖的领域和范围,但是两类搜索引擎反映的信息普遍时效性较差。 网络爬虫是一种对远程信息资源进行抓取的网络应用程序,它把远程信息抓取并保存到本地。Lucene是一种开源的通用本地信息检索框架,相对于传统的一些信息应用提供了更快的反应速度。RSS(ReallySimpleSyndication),也称聚合内容,作为一种网络信息推送技术在各大门户站点得到了广泛应用。RSS订阅机制使我们可以及时地获取最新资源信息,摒弃过时信息的干扰。通过对网络RSS资源的抓取检索发现信息能够充分保证信息的及时性,这也正是本文的研究目标。 本文在阅读了大量参考文献的基础上,对部分开源蜘蛛以及Lucene代码进行深入分析研究,提出了一种针对网络RSS信息抓取并检索的方案:基于RSS爬虫的搜索引擎框架。本文的主要工作及创新性可体现在以下几个方面: (1)通过对网络爬虫Jobo基本原理以及部分开源代码进行研究,完成了RSS网络爬虫的设计编程工作,针对性地设计并实现了代码框架: 利用Tidy将Html内容转化为DOM树形式,遍历DOM树提取网页内部包含的文本链接地址以及图片链接地址; 利用MD5算法计算网页地址的32位hash值表示已抓取网页并存储为文件列表形式,新的待抓取网页地址也利用相同算法计算后与文件列表中的值对比,有相同值就表示已抓取过,以此来屏蔽已抓取网页连接; 网页地址32位hash值存储过程中实现了缓存机制,提高了磁盘读写效率。 (2)探讨了Lucene提供的分词,过滤,转换等过程,实现了以ICTCLAS中文分词系统为基础的自定义分析器; (3)研究Lucene网页索引过程,针对性的设计了多线程索引提高索引效率,结合项目经验实现了基于RSS的搜索引擎,实现了所检索信息的及时性。
其他文献
近年来,随着Web2.0的发展,社会网络越来越受到更多学者们的关注和研究。在社会网络的众多性质中,社团结构是其最重要同时也是最具有研究意义的性质之一。通过社团的划分,我们
面向服务架构SOA(Service-Oriented Architecture),与面向过程、面向对象、面向组件一样,是一种软件组建及开发的方式。SOA可以理解为“抽象、松散耦合和粗粒度”的软件架构
电机作为一种重要的机电产品,广泛的应用于从工农业生产到人们日常生活的各个领域。为了保证电机的质量,以及对电机的性能进行研究分析,电机测试是必不可少的一个环节。近年来,计
网格资源管理系统是网格的核心组成部分。由于网格是一个开放、动态的互联网并行环境,用户可以从网格的任何地方向网格平台提交应用,而且网格所固有的动态性特征,使得网格资
受众,是对于大众传播中接收者的统称,一般是指通过大众传播媒介接受信息的人,包括报刊读者、广播听众、电视观众以及互联网的网民。由于受众是传播活动的目的地,人们不断地改
适于仿真需要的CT图像中牙列轮廓的快速提取,是基于CT图像的成像特点,对于成像后相邻组织间丢失的轮廓,采用相对自动的办法将其生成。本文采用Amira医学图像三维建模软件,综
TTCN-3语言编译器实现的复杂性,使手工构造的测试用例集无法对编译器质量加以有力保证。引入测试用例自动生成,成了一种必然选择。通过总结手工测试经验,结合编译器构造、程
近年来,伴随着社会经济的发展,道路交通也迅速发展,从而造成交通环境相对复杂。为解决道路交通迅速发展所带来的各种问题,智能交通系统的研究被提到了重要位置,利用计算机视
伴随着云计算的迅速发展,云存储服务也应运而生。云存储大大提升了存储资源的利用率,降低存储成本。无论传统的单机存储还是当前的云存储,只要有数据的地方就有数据安全问题。“
随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,Web文本信息过滤技术已成为一个研究热点。本文在前期课题IPCG控制网关的研究基础