论文部分内容阅读
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的有效获取成为各行业有效利用网络信息资源的基础。
面向民航Web信息的主题爬虫是专注于在海量的网络信息中有效地识别与民航相关的Web信息资源,并进行获取和及时更新的系统,该系统不仅可作为民航主题搜索引擎必要的信息获取模块,也可成为其它民航企业级信息应用的网络数据来源。
该文对现有主题爬虫相关技术进行了详细的研究和总结,通过对其中关键性技术以及模型的对比、选择和优化,给出了民航主题爬虫的设计方案。方案采用基于任务通信机制的分布式并行架构保证了系统的高度扩展性,利用页面过滤和URL剪枝保证了爬虫搜集信息的民航主题相关性。
该文对页面主题相关性过滤所采用的向量空间模型以及URL主题相关性剪枝所采用的PageRank算法进行了性能优化,并且在搜集网页更新方面,提出了一种新颖有效的更新策略,通过增加主题度和更新度的考虑以最大限度保证信息的时效性。
然后基于开源项目NUTCH提出了此设计方案的具体实现方法,成为利用此设计方案实际进行民航主题爬虫开发的有力补充。最后通过对部分系统所采用算法进行的实验以及对我们所开发原型系统的整体性能测试,证明了民航主题爬虫设计方案和实现方法所具有的可行性和实用性。