论文部分内容阅读
主题搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合。其中的关键技术包括中文分词、主题爬虫、索引、分布式存储等,本文重点研究网络资源的爬虫和索引的主题搜索技术,具有重要的应用价值。主要工作包括:1.提出了一种基于内容和链接分析相结合计算主题相关度的搜索策略。基于Web超链接评价算法考虑了链接结构和页面之间的引用关系,但忽略了页面与主题的相关性。基于内容评价的算法只注重文本在主题搜索中的重要性,而忽略了Web结构的作用。综合的搜索策略利用基于内容的评价来提高搜索内容与主题的相关度,同时利用基于链接结构的评价来提高主题资源搜索的覆盖率。2.改进了Shark-search算法。从URL队列维护和检索时间的角度出发进行算法的改进,提高了Shark-search算法的时空效率,在主题相似度计算方法上应用了向量空间模型;在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,从待访问网站的时间性能因素出发,改进了PageRank算法。3.给出了基于改进倒排表的索引器设计方案,从索引文件本身的结构出发进行改进,采用分级的倒排表索引组织结构,提高了索引创建的效率。在索引更新部分设计了索引器的批量索引方法与增量索引方法,实现了索引文档的动态更新。将改进后的算法与基于Nutch的索引技术相结合,在此基础上实现了一个风险主题搜索引擎索引的建立与维护。4.基于开源项目Nutch,设计并实现了一个风险主题搜索引擎,把自己建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析,证明了系统可以为用户提供完整准确的风险主题信息查询服务。本课题得到了“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)支持。