论文部分内容阅读
结合网页的视觉信息和DOM树结构,研究从DeepWeb查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个DeepWeb网站进行了抽取数据实验,结果表明本文方法是有效的。