HTML文档编辑距离及其在分类信息抽取中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：web198702

【摘要】

：

随着互联网的高速发展和搜索引擎的出现，人们从互联网上获取信息比以往任何时候都变得快捷和高效。随着各种应用的丰富，越来越多的数据存在于后台数据库中，由服务器端程序自动生

【作者】

：

易炜

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2007年期

【关键词】

：

信息抽取 HTML文档文档编辑距离 DOM 树编辑距离搜索引擎数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展和搜索引擎的出现，人们从互联网上获取信息比以往任何时候都变得快捷和高效。随着各种应用的丰富，越来越多的数据存在于后台数据库中，由服务器端程序自动生成网页的方式来呈现给用户，对于这样一类信息，充分利用文档的相似结构信息，能够为准确抽取我们关心的数据提供便利。通过对有价值的 HTML 文档进行更深入的数据挖掘，从而对包含在文档中的数据对象建立关联以方便人们的使用，例如对多个房屋出租的网站的网页中的房屋出租信息进行抽取之后，可以提供方便的房屋搜索等等。在经典的树编辑距离的基础上，根据HTML文档的结构特点，本文提出了一种用于度量HTML文档之间结构差异的方法，即HTML文档编辑距离的方法(HTMLEdit Distance)。该算法的基本思想是，把限制在叶节点上一系列的插入删操作，作为两棵HTML 文档树转化的基本操作，并对HTML文档树转换过程中使用的的这两种基本操作赋予代价函数，更好的反映HTML 结构上不同的标记对树结构的影响。该算法通过寻找两棵树之间最小代价的编辑序列，来求解两棵树之间编辑距离并构造对应的匹配。在HTML文档编辑距离的算法基础上，本文以分类信息网站为例，提出了一种利用结构特征来自动生成信息抽取规则的方法。利用HTML文档能构成DOM树这一固有特点，通过HTML 文档编辑距离算法，我们通过构造样本文档树的公共树结构，提供了区别文档的数据部分和模板部分的有效办法，能够针对模板生成的分类信息网站构造抽取规则。相比其他的一些抽取方法，该方法只需要较少的样本文档就可以构造其公共结构树，从而大大提高自动化的程度。最后，通过实验结果验证了该方法的可行性和有效性。

其他文献

Web信息集成系统COMMIX中基于显示属性的网页信息提取子系统的设计与实现

随着Internet的快速发展和网络信息量的增长，Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息，我们通常的方式使用搜索引

学位

Web信息集成COMMIX网页信息提取DOM显示属性特征属性集Wrapper

EMULE文件共享系统的攻击工具的设计与实现

随着P2P文件共享系统从以服务器为中心架构转变为弱中心或无中心的架构，传统的节点管理已经不能适应发展需求，因而导致了一些漏洞的产生。与此同时P2P的用户数量却在迅速增长，使

学位

P2P网络文件共享eMule系统漏洞索引系统攻击crawler

Blog数据搜集与数据分析技术

随着blog在全世界的流行，面向blog的Internet服务系统也越来越多。其中最常见的是blog搜索服务，也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾，但是很少有文献完整全

学位

博客搜索引擎搜集系统数据搜集数据分析

一个J2EE服务容错配置管理工具的设计与实现

作为主流的分布式软件系统运行支撑平台,J2EE中间件封装了一组公共服务以提高分布应用的开发、部署、维护和演化的效率与质量。Internet的普及、中间件标准化的完善以及开源

学位

容错故障中间件J2EE服务可靠性

基于Flash存储器的日志文件系统TICKFS的设计与实现

随着嵌入式系统越来越广泛的使用，嵌入式系统中的数据存储和管理成为一个新的研究热点。Flash存储器拥有速度快，功耗低和价格便宜等众多优点，在嵌入式系统中被广泛用作数据存储

学位

嵌入式文件系统Flash存储器实时数据存储垃圾回收均衡擦除TICKFS

中文文本的实体提及识别与共指消解

指代大量地出现在自然语言文本中，它对于简化表达、衔接上下文起着重要的作用，文本的概念关联性在很大程度上就是通过指代关系来刻画的。指代消解已成为许多自然语言处理应用中

学位

中文文本文本识别共指消解

一种调试时代码动态更新方法

随着信息技术的不断发展,软件产品被应用到社会的每个角落。在软件开发过程中,保证软件的质量和保持软件的高效对于软件开发人员是一个巨大的挑战。软件质量是通过软件测试和

学位

软件调试代码更新对象迁移器

视频传输中的码率控制和转码技术研究

近年来，在不断涌现的数字视频应用需求的推动下，数字视频编解码技术获得了突飞猛进的发展。为了使不同厂家生产的多媒体产品交换或接受来自公共信源的信息，国际上相关的研究组织

学位

视频传输视频码流码率控制转码技术

基因计算平台WebLab中并发Blast计算的网格调度技术和原型实现

WebLab是北京大学生物信息中心开发的一个生物信息网上实验室，它集成了包括Blast等共计194个程序及所需的数据库。用户无需安装任何软件，即可通过浏览器使用这个基因计算平台，选

学位

Blast计算WebLab网格调度网格服务网格计算

基于信念修改的说服协商

多Agent自动协商技术已经在分布式计算，电子商务等领域中得到了广泛的使用，研究者提出了各种协商方法，这些方法主要分为三个类别：基于对策论的协商方法，启发式的协商方法和基于辩

学位

信念修改多Agent自动协商分布式计算说服协商奖赏

HTML文档编辑距离及其在分类信息抽取中的应用

与本文相关的学术论文