结合有监督广度优先搜索策略的通用垂直爬虫方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:herangxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。
其他文献
通过对二项堆性质的深入研究,证明最大值堆的枚举计数递推公式适用于二项树堆(遵循堆性质的二项树)。由二项树堆的枚举计数递推公式计算出的枚举数目能组成枚举值数列。把枚举
护理技术是护理质量管理的重点和难点,护理技术的质量控制对减少实验误差尤其重要。为排除抗凝剂浓度、标本放置时间等因素对血气分析结果的影响,我科2004年2月起用美国I-STAT
期刊
针对立体视觉测量技术在风洞试验中的应用特征,设计基于线阵CCD的三目视觉立体测量系统。利用基于双高斯物镜的组合透镜,在降低光学畸变的前提下实现点光源到线光源的变换。
为解决高动态范围图像在传统显示设备中准确显示的问题,将模糊的视觉注意机制转化为确定的特征点个数,提出一种基于图像特征的评价体系,以判别色调映射方法所得结果图像是否保持特征信息。针对图像进行对比度调整,将场景亮度变换到可以显示的范围,同时保持细节与颜色等对于表现原始场景的重要信息。对7种色调映射全局方法,即Logarithmic TMO,Exponential TMO,TumblinRushmeie
为了提高跑步点轨迹跟踪的精度,提出基于解耦控制的跨栏跑步点轨迹跟踪方法.构建约束参量模型和运动学模型,采用非线性双曲解耦控制模型进行跑步点轨迹参数模糊度辨识,设计比
什么叫”横不缺项”?;什么叫“纵不断线”?
《温州日报》“党报热线”创办近两年来,我们精心设计并不断调整,求新、求活、求异、求变、求高质量,逐步实现了将新闻从“可读”向“必读”的转变,提升了党报在读者心中的地位。
金仲华先生是我国卓越的新闻工作者、编辑家,曾任数家著名报刊、通讯社的社长和总编辑。同时他又是我国著名的国际问题专家、杰出的社会活动家。