一种基于扩展DOM树的Web数据自动抽取方法

来源 :应用科技 | 被引量 : 0次 | 上传用户:xuezhiyong2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.
其他文献
在蔡尚思先生百年学术思想心路历程中,一直坚持以草根大众民意为主张的“惟民思想”和批判性思维观。早年他抱着“无必死之精神,则无必成之事业”的决心和勇气,先后拜王国维
<正>中华倒刺鲃俗名青波,隶属鲤科,鲃亚科,四须鲃属,倒刺鲃亚属,多生活于长江中上游及其附属水系的江河中。具有个体大(最大个体可达25kg)、生长快、适温范围广(0~36℃)、抗病
针对跟踪系统对多目标跟踪以及对实时性的要求,给出了一种基于中心点和面积特征匹配的多运动目标探测标记及跟踪方法.该方法利用对多运动目标检测后的二值图像进行了连通成分标记,提出了一种新的探测搜索标记法,赋予不同连通区域不同的数字来区分,通过四连通区域法来实现.由运动目标的4个顶点来确定中心点,通过面积及中心点距离从而进一步去匹配,最后根据标记结果在原图像中准确地框定了各运动目标,从而实现对运动目标的跟