论文部分内容阅读
随着互联网的高速发展和搜索引擎的出现,人们从互联网上获取信息比以往任何时候都变得快捷和高效。随着各种应用的丰富,越来越多的数据存在于后台数据库中,由服务器端程序自动生成网页的方式来呈现给用户,对于这样一类信息,充分利用文档的相似结构信息,能够为准确抽取我们关心的数据提供便利。通过对有价值的 HTML 文档进行更深入的数据挖掘,从而对包含在文档中的数据对象建立关联以方便人们的使用,例如对多个房屋出租的网站的网页中的房屋出租信息进行抽取之后,可以提供方便的房屋搜索等等。
在经典的树编辑距离的基础上,根据HTML文档的结构特点,本文提出了一种用于度量HTML文档之间结构差异的方法,即HTML文档编辑距离的方法(HTMLEdit Distance)。
该算法的基本思想是,把限制在叶节点上一系列的插入删操作,作为两棵HTML 文档树转化的基本操作,并对HTML文档树转换过程中使用的的这两种基本操作赋予代价函数,更好的反映HTML 结构上不同的标记对树结构的影响。该算法通过寻找两棵树之间最小代价的编辑序列,来求解两棵树之间编辑距离并构造对应的匹配。
在HTML文档编辑距离的算法基础上,本文以分类信息网站为例,提出了一种利用结构特征来自动生成信息抽取规则的方法。利用HTML文档能构成DOM树这一固有特点,通过HTML 文档编辑距离算法,我们通过构造样本文档树的公共树结构,提供了区别文档的数据部分和模板部分的有效办法,能够针对模板生成的分类信息网站构造抽取规则。相比其他的一些抽取方法,该方法只需要较少的样本文档就可以构造其公共结构树,从而大大提高自动化的程度。最后,通过实验结果验证了该方法的可行性和有效性。