论文部分内容阅读
根据RSS/XML文本格式的博客信息特点,进行了文本解析、中文分词和索引建立,以及基于PageRank算法的搜索排序等研究工作,利用Heritrix爬虫、Lucene全文索引检索工具包开发了RSS博客搜索引擎,并将系统实际应用于Android系统的手机终端。实验证明,该系统能实时、高效的在手机终端进行博客搜索,使用户获得优于传统博客检索的体验。