论文部分内容阅读
随着网络博客的流行,一种内容聚合技术RSS技术迅速发展起来,并在许多领域得到广泛应用。RSS是一种简易信息发布和传递的方式,通过这种方式,站点之间可以方便地调用提供RSS订阅服务的网站的内容,从而形成非常高效的信息聚合,让网站发布的内容在更大的范围内传播,用户也可以通过RSS种子获取感兴趣的信息。然而RSS种子的分布比较分散,要在互联网中寻找自己感兴趣的RSS种子,是一件很困难的事情,聚合文档搜索引擎的出现为用户搜集自己感兴趣的聚合信息提供了一个方便的手段。本文将针对聚合文档搜索引擎的构建进行深入的研究。
聚合文档搜索引擎主要由RSS种子搜集器、RSS种子索引器和RSS种子检索器三个部分构成。在RSS搜集器的设计中,本文着重研究了HTML页面解析器的构建技术,并行采集技术和页面采集策略。在HTML,页面解析器的构建中,根据HTML页面元素的树状组织结构,构建了HTML语法树,并且建立了链接节点的索引表;为了提高搜集器的采集性能,设计了一个多线程采集架构;在搜集策略上,本文采取了基于站点的采集策略,同时可以采用深度优先和广度优先两种搜索策略去采集站内信息;通过分析站点链接关系,评价站点流行度,从而指导站点采集顺序。在RSS种子信息的存储上了,本文基于文件系统设计了RSS种子存储格式。在RSS种子索引器和检索器的构建上,本文采用Lucene全文索引包,在深入分析Lucene原理的基础上,利用逆向最大分词算法实现了中文的分词,并将中文分词集成到Lucene系统中。在用户检索上,该系统支持布尔检索接口,同时结合用户反馈信息,改进Lucene排序机制。最后实现了聚合文档搜索引擎,系统得到成功的运行。聚合文档搜索引擎集中于Internet上核心资源的搜集,一定程度上解决了信息过载问题,满足了用户对个性化信息需求。