论文部分内容阅读
如今搜索引擎是一个十分活跃的话题和领域,在世界各地都能看到搜索引擎的身影。
搜索引擎已经成为信息产业一个重要的支撑,作为搜索引擎重要组成部分的网络爬虫也日渐受人重视。为了满足不同背景、不同层次的人群的需求,针对某一领域的垂直搜索引擎产生了,同时主题爬虫也开始崭露头角,针对主题爬虫爬行策略的研究也逐渐升温。本文通过在主题爬行中应用支持向量机技术,从而提出了一种更加人性化、更加智能的主题爬行策略,针对这个问题,重点研究了以下内容。
1)对主题爬虫系统进行了总体分析,使用了支持向量机技术,实现了一个针对国庆主题的主题爬虫;通过多线程技术增加爬虫的爬行效率,通过相关度分析预防并阻止“主题漂移”的发生;通过给予主题无关网页一定的“预期价值”来挖掘其“潜在价值”的方式防止爬虫陷入“局部最优解”的困境。
2)提出了一种基于支持向量机技术的主题爬行策略。首先将网页下载到本地,并采用基于视觉效果的页面分块算法对下载到本地的网页进行预处理,去除其中的广告信息、版权信息等“噪音”,并使用支持向量机技术区分开文本块和链接块;然后对文本块和链接块进行相关度分析,并使用训练后的支持向量机对网页进行分类,区分开主题相关的网页和主题无关的网页;最后对主题相关的网页和主题无关的网页做进一步的分析处理,直到满足系统的停止条件。
本文结合支持向量机技术,实现了主题爬行,实验结果表明该主题爬行策略是有效的,在主题爬行中结合并使用支持向量机技术有着很高的实用价值。