论文部分内容阅读
随着网络信息的爆炸性增长,传统的搜索引擎已经不能满足人们获取精确信息的需要,主题搜索应运而生,主题爬虫是其基础和关键性部分,直接决定了主题搜索的深度和广度。很多学者对主题爬虫这一领域进行了大量的研究,然而在一些方面仍存在不足:如网页质量难以评估,抓取的准确率召回率不高等等。 本文在对之前的算法的研究过程中,意识到爬虫抓取中会自然的对主机进行多次循环访问,指出完全可以在不用额外开销的情况下迭代计算主机的质量。然后在调查网页结构和人们制作网页的习惯时发现,人们往往是根据语义内容来组织网页,并且在内容距离的表示下很容易能找到规律,获取链接上下文。在此基础上,本文提出了一种层次化网页质量计算方法,首先迭代计算主机质量获取网页的全局质量优先级评分,然后综合链接结构及链接上下文的内容来对网页的局部质量优先级评分,二者的加权和作为网页的最终评分。实验表明算法不仅能快速的算出网页的重要度,还具有比较高的准确率、召回率和抓取速度。此外本文还实现了一个完整的主题爬虫及医疗搜索的原型系统对算法进行检验,而在这些实际应用中发现的问题正是本文将来改进的方向:网页更新的自动判断和语义信息的综合应用。