基于支持向量机技术的主题爬行策略研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:xytw895
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今搜索引擎是一个十分活跃的话题和领域,在世界各地都能看到搜索引擎的身影。   搜索引擎已经成为信息产业一个重要的支撑,作为搜索引擎重要组成部分的网络爬虫也日渐受人重视。为了满足不同背景、不同层次的人群的需求,针对某一领域的垂直搜索引擎产生了,同时主题爬虫也开始崭露头角,针对主题爬虫爬行策略的研究也逐渐升温。本文通过在主题爬行中应用支持向量机技术,从而提出了一种更加人性化、更加智能的主题爬行策略,针对这个问题,重点研究了以下内容。   1)对主题爬虫系统进行了总体分析,使用了支持向量机技术,实现了一个针对国庆主题的主题爬虫;通过多线程技术增加爬虫的爬行效率,通过相关度分析预防并阻止“主题漂移”的发生;通过给予主题无关网页一定的“预期价值”来挖掘其“潜在价值”的方式防止爬虫陷入“局部最优解”的困境。   2)提出了一种基于支持向量机技术的主题爬行策略。首先将网页下载到本地,并采用基于视觉效果的页面分块算法对下载到本地的网页进行预处理,去除其中的广告信息、版权信息等“噪音”,并使用支持向量机技术区分开文本块和链接块;然后对文本块和链接块进行相关度分析,并使用训练后的支持向量机对网页进行分类,区分开主题相关的网页和主题无关的网页;最后对主题相关的网页和主题无关的网页做进一步的分析处理,直到满足系统的停止条件。   本文结合支持向量机技术,实现了主题爬行,实验结果表明该主题爬行策略是有效的,在主题爬行中结合并使用支持向量机技术有着很高的实用价值。
其他文献
粗糙集理论是一种处理不精确、不确定和不完备信息的数据分析方法,以其为理论基础的数据分析与处理技术得到越来越广泛的应用。决策信息系统分解作为解决大型决策表数据海量
语义物联网是语义网与物联网的结合,主要目的是利用语义网的语义标注技术解决物联网中的资源异构问题,从而实现资源的高效利用。传感器网络是物联网的基础设施,是应用程序获
随着无线网络的发展,近年来无线Mesh网络也蓬勃发展起来。做为一种新型无线通讯网络,无线Mesh网络有着自组性、自愈性、频谱效率高、覆盖范围大、可扩展性能强、可靠性强等特点
本文就基于文本的信息隐藏技术做了相关的研究。 本文首先介绍了信息隐藏技术的研究现状及应用领域,论述了信息隐藏技术的定义、通用模型、基本要素等方面,并对信息隐藏技术
遗传算法是模拟生物界的进化过程而产生的一种现代人工智能算法,它具有天然的并行性,在求解复杂、大规模、非线性、不可微的优化问题中具有较高的性能。当今单核计算机现在已
万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过
人工蜂群算法(Artificial Bee Colony Algorithm, ABC)是一种受蜜蜂采蜜行为启发产生的新型群体智能优化算法。由于控制参数少、易于实现、计算简洁等特点,近年来ABC算法备受
随着Internet技术的发展,万维网上的文档数目成指数级增长,在如此浩瀚的信息库中,用户非常难找寻到自己所需要的信息。因此如何自动且高效地处理这些海量文档信息成为目前重
实验室信息管理系统(Laboratory Information Management System,缩写为LIMS)是利用计算机网络技术、数据存储技术、快速数据处理技术来对实验室进行全方位管理的计算机软、
无线传感器网络是当前通信和计算机领域的研究热点。目标跟踪是无线传感器网络中的一项重要应用,在军事和民用上都具有广泛的应用前景,也是技术上具有挑战性的课题。   目前