聚合文档搜索引擎的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:hanben1104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络博客的流行,一种内容聚合技术RSS技术迅速发展起来,并在许多领域得到广泛应用。RSS是一种简易信息发布和传递的方式,通过这种方式,站点之间可以方便地调用提供RSS订阅服务的网站的内容,从而形成非常高效的信息聚合,让网站发布的内容在更大的范围内传播,用户也可以通过RSS种子获取感兴趣的信息。然而RSS种子的分布比较分散,要在互联网中寻找自己感兴趣的RSS种子,是一件很困难的事情,聚合文档搜索引擎的出现为用户搜集自己感兴趣的聚合信息提供了一个方便的手段。本文将针对聚合文档搜索引擎的构建进行深入的研究。 聚合文档搜索引擎主要由RSS种子搜集器、RSS种子索引器和RSS种子检索器三个部分构成。在RSS搜集器的设计中,本文着重研究了HTML页面解析器的构建技术,并行采集技术和页面采集策略。在HTML,页面解析器的构建中,根据HTML页面元素的树状组织结构,构建了HTML语法树,并且建立了链接节点的索引表;为了提高搜集器的采集性能,设计了一个多线程采集架构;在搜集策略上,本文采取了基于站点的采集策略,同时可以采用深度优先和广度优先两种搜索策略去采集站内信息;通过分析站点链接关系,评价站点流行度,从而指导站点采集顺序。在RSS种子信息的存储上了,本文基于文件系统设计了RSS种子存储格式。在RSS种子索引器和检索器的构建上,本文采用Lucene全文索引包,在深入分析Lucene原理的基础上,利用逆向最大分词算法实现了中文的分词,并将中文分词集成到Lucene系统中。在用户检索上,该系统支持布尔检索接口,同时结合用户反馈信息,改进Lucene排序机制。最后实现了聚合文档搜索引擎,系统得到成功的运行。聚合文档搜索引擎集中于Internet上核心资源的搜集,一定程度上解决了信息过载问题,满足了用户对个性化信息需求。
其他文献
当发生自然灾害、战争时,基础设施遭到严重破环,需要快速、灵活地建立一张临时的通信网用于交互信息,即:自组织救护网。自组织救护网是一种Ad Hoc网络。然而,已有的,成熟的Ad Hoc网
随着经济的发展,车辆数量急剧增大,交通问题日益突出,这使得智能交通系统成为一个热点研究领域,受到日益广泛的关注。车辆识别是智能交通领域应用的重要研究课题之一,是智能
近年来随着国家大力支持,我国遥感卫星技术迅速发展,应用也越来越广泛[1]。例如:在GIS系统、自然灾害监测、地理测绘、数字地球、城市环境、军事解读等领域都有非常广泛的应用。
云计算服务提供商通常会在不同地区构建数据中心用以服务不同地区的用户,给用户提供更加优质的服务。现在的具有多个数据中心的云计算系统通常会让用户自己选择在何处的数据
随着计算机和网络技术的迅速发展,针对网络和计算机系统的攻击也屡见不鲜,网络安全问题变得日益严峻。众多安全机构研发了许多安全产品,但攻击者的技术水平也在不断提高,安全
长期以来,烟草专卖业务中的案件处理过程一直存在着问题:一方面,由于案件处理流程的不规范使得工作人员在处理案件的时候具有较大的随意性,这种执法的随意性不符合烟草专卖行业严
随着互联网技术的迅速发展,数据业务逐渐成为网络的主流,而传统的IP/ATM/SDH/DWDM的结构方式日益成为制约数据业务快速发展的障碍,迫切需要开发新技术来解决这一问题。IP直接由
随着计算机科学技术的发展,自动识别技术得到了广泛的应用。在众多自动识别技术中,条码技术已经成为当今主要的计算机自动识别技术之一。识别技术和编码理论是条码技术中两个非
本文旨在研究如何将数据挖掘技术与学生就业问题相结合,从大量数据中挖掘隐藏在中等职业教育学校学生现有数据中的有用信息。本文介绍了数据挖掘相关知识,选取了关联规则中的
随着Internet技术的发展,越来越多的应用采用XML作为信息表示和数据交换的标准,这使得通过数据库技术对XML数据进行存储、查询等操作变得日益重要,同时也为数据库研究者提出了新