论文部分内容阅读
详细阐述了主题描述与定义、相关度计算、抓取策略等主题爬虫的关键技术。综合考虑了特征词在相同文本的不同位置和在不同文本的位置权重,利用改进的 TF - IDF 公式计算,同时将这些特殊位置考虑进去以改进传统的向量空间模型 VSM (Vector Space Model)。根据改进的 VSM 方法计算主题页面相关性,同时将改进的 Shark Search 和 HITS 算法结合,既弥补了 Web 全局性之不足,也消除了 HITS 算法中的“主题漂移”现象。实验结果表明该方案用于指导主题爬虫的抓取具有很高的灵活