HTML文档编辑距离及其在分类信息抽取中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:web198702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展和搜索引擎的出现,人们从互联网上获取信息比以往任何时候都变得快捷和高效。随着各种应用的丰富,越来越多的数据存在于后台数据库中,由服务器端程序自动生成网页的方式来呈现给用户,对于这样一类信息,充分利用文档的相似结构信息,能够为准确抽取我们关心的数据提供便利。通过对有价值的 HTML 文档进行更深入的数据挖掘,从而对包含在文档中的数据对象建立关联以方便人们的使用,例如对多个房屋出租的网站的网页中的房屋出租信息进行抽取之后,可以提供方便的房屋搜索等等。 在经典的树编辑距离的基础上,根据HTML文档的结构特点,本文提出了一种用于度量HTML文档之间结构差异的方法,即HTML文档编辑距离的方法(HTMLEdit Distance)。 该算法的基本思想是,把限制在叶节点上一系列的插入删操作,作为两棵HTML 文档树转化的基本操作,并对HTML文档树转换过程中使用的的这两种基本操作赋予代价函数,更好的反映HTML 结构上不同的标记对树结构的影响。该算法通过寻找两棵树之间最小代价的编辑序列,来求解两棵树之间编辑距离并构造对应的匹配。 在HTML文档编辑距离的算法基础上,本文以分类信息网站为例,提出了一种利用结构特征来自动生成信息抽取规则的方法。利用HTML文档能构成DOM树这一固有特点,通过HTML 文档编辑距离算法,我们通过构造样本文档树的公共树结构,提供了区别文档的数据部分和模板部分的有效办法,能够针对模板生成的分类信息网站构造抽取规则。相比其他的一些抽取方法,该方法只需要较少的样本文档就可以构造其公共结构树,从而大大提高自动化的程度。最后,通过实验结果验证了该方法的可行性和有效性。
其他文献
随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引
随着P2P文件共享系统从以服务器为中心架构转变为弱中心或无中心的架构,传统的节点管理已经不能适应发展需求,因而导致了一些漏洞的产生。与此同时P2P的用户数量却在迅速增长,使
随着blog在全世界的流行,面向blog的Internet服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全
作为主流的分布式软件系统运行支撑平台,J2EE中间件封装了一组公共服务以提高分布应用的开发、部署、维护和演化的效率与质量。Internet的普及、中间件标准化的完善以及开源
随着嵌入式系统越来越广泛的使用,嵌入式系统中的数据存储和管理成为一个新的研究热点。Flash存储器拥有速度快,功耗低和价格便宜等众多优点,在嵌入式系统中被广泛用作数据存储
指代大量地出现在自然语言文本中,它对于简化表达、衔接上下文起着重要的作用,文本的概念关联性在很大程度上就是通过指代关系来刻画的。指代消解已成为许多自然语言处理应用中
随着信息技术的不断发展,软件产品被应用到社会的每个角落。在软件开发过程中,保证软件的质量和保持软件的高效对于软件开发人员是一个巨大的挑战。软件质量是通过软件测试和
近年来,在不断涌现的数字视频应用需求的推动下,数字视频编解码技术获得了突飞猛进的发展。为了使不同厂家生产的多媒体产品交换或接受来自公共信源的信息,国际上相关的研究组织
WebLab是北京大学生物信息中心开发的一个生物信息网上实验室,它集成了包括Blast等共计194个程序及所需的数据库。用户无需安装任何软件,即可通过浏览器使用这个基因计算平台,选
多Agent自动协商技术已经在分布式计算,电子商务等领域中得到了广泛的使用,研究者提出了各种协商方法,这些方法主要分为三个类别:基于对策论的协商方法,启发式的协商方法和基于辩