一种基于数据驱动型Web页面的信息抽取方法

来源 :科学与财富 | 被引量 : 0次 | 上传用户：youshulin

【摘要】

：

【作者】

：

刘宏义

【出处】

：

科学与财富

【发表日期】

：

2016年31期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：提出了一种以XSLT为抽取规则的Web信息抽取方法。首先将样本Web文档转换为XHTML文档，通过解析器构造DOM树，寻找最大频繁子树并识别出用户感兴趣信息，以此形成需抽取内容的定位信息。然后对不同样本Web文档的定位信息进行归纳学习，并构造出以XSLT文档表示的抽取规则。最后应用该抽取规则进行实际的信息抽取。方法基本不需要人工干预即可完成Web信息抽取，可应用于Web数据挖掘以及信息搜集比对等应用领域。
　　关键词：Web；抽取；XML；XSLT
　　Extracting Information of Web based on Data Driver
　　LIU Hongyi
　　（College of the PLA border denfense academy of fighting Lab，Xian，China，710108）
　　Abstract： This paper presents a method of information extraction using XSLT as extracting rules. First， change the sample Web document into XHTML document， constructs DOM tree by the parser， find out the biggest frequent sub tree and identify the information which users are interested in， which produces localization information needed to extract content. Second， induction study about the localization information of different sample Web documents， and construct the extraction rules expressed with XSLT documents. Finally， information is actually extracted using these rules. This method can almost accomplish Web information extraction without manual intervention， and can be applied in many application fields such as Web data mining and information collecting and comparing.
　　Key words： Web ； extraction ； XML ； XSLT
　　1 引言
　　隨着Internet的发展，Web上的数据呈几何级数增长，要想从Web上获取一条有用信息的难度也越来越大。Web数据的不断增长和异构数据源集成的应用，导致了大量数据驱动型Web页面的产生。目前这些数据多是通过HTML语言来展现，而HTML语言的一个显著特点是结构不规则或不完整，使Web上的数据处于一种无序状态，应用程序无法直接解析、获取并利用Web上海量的信息，给Web应用的建立造成了较大困难。
　　为解决从Web文档中抽取所需信息，人们做了大量的研究工作。但由于所处理的对象是HTML文档，它包含了许多显示格式标签，使所需数据信息分散在各种标签中，且分布规律对不同领域、不同应用可能大不相同。因此过去的主要研究工作是在分析领域知识的基础上，用人工或机器辅助的方式制定一些信息抽取规则，然后依据规则从Web页面中抽取所需信息。这就带来两个主要问题，第一，它不是一个通用的抽取系统，而是针对某一领域，还需要制订有效的抽取规则；第二，一旦被抽取的源Web页面结构发生变化，抽取工作可能失效。
　　本文提出的方法利用了标准的XML技术来解决针对数据驱动型Web页面信息抽取问题。信息抽取的核心是生成抽取规则，而抽取规则实际上就是用户感兴趣的数据项的定位信息。我们的做法是：首先将样本Web页面转化成为结构良好的XML文档；根据用户的抽取需求从样本XML文档中找到用户感兴趣的区域；并在这个区域内细粒度地查找到具体要抽取的数据项的定位信息；然后对不同样本页面的定位信息进行归纳学习，得出该类页面用户感兴趣数据项的定位信息，并构造出以XSLT文档表示的抽取规则。最终应用该抽取规则进行实际的信息抽取。
　　2 基于XML的信息抽取方法
　　2.1 方法概述
　　基于XML的Web信息抽取系统主要由HTML解析器、规则生成器组成，图1是系统的框图。
　　图1：Web页面主题信息抽取系统框架图
　　图中细线表示通过HTML样本集生成Web信息抽取规则的过程，粗线表示对HTML文档应用XSLT进行信息抽取的过程，虚线则表示用户需求指导抽取规则的生成。HTML解析器负责将HTML文档先转换为良构的XHTML，然后解析为DOM树，使后续工作在此DOM树基础上进行。规则生成器则根据最大频繁子树找到感兴趣的信息块，然后依据用户的抽取需求从信息块中找到所需抽取数据的定位信息。对这些定位信息进行归纳学习后生成XSLT文档，也即抽取规则。当要对待抽取HTML文档进行信息抽取时，也需要先把HTML文档解析为DOM树，然后执行XSLT引擎，生成的XML文档就是所需抽取的信息。
　　2.2 抽取规则
　　1）确定输入样本感兴趣信息块。
　　以图2所示的查询结果页面为例，所要抽取的信息只是有关图书的一些描述，感兴趣的信息块是图中以线框标注的部分。
　　图2：以数据驱动的样本页面　　设输入具有相似表现格式的样本集表示为：{P1，P2，…，Pn}，n为样本页面的个数。扫描样本页面，找出频繁子树，并通过用户需求确认感兴趣信息块（IB），m为IB的个数。用算法1可得到IB的定位信息集。
　　算法：返回IB定位信息集
　　该算法也分为两个部分：样本集合的获得和定位信息的生成。
　　输入：n个样本页面训练集合，每个页面上含有m个IB；
　　输出：IB定位信息集
　　{/***初始化***/
　　LocationIBs=null； //IB定位信息集置空
　　For（i=1； i++；i=m）{ //第一个IB定位信息置空
　　Path[i]=null；
　　LocationIB[i]=null；}
　　/***样本集合的获得***/
　　For（i=1；i++； i=m）
　　For（j=1；j++；j=n）{
　　扫描第j个样本页面的DOM树；
　　把第j个样本页面中的第i项内容的路径表达式写入path[i]中}
　　/***获得每个信息块的抽取规则集合***/
　　For（i=1；i++；i=m）{
　　While（path[i]！=null）{
　　随机抽取一项path[i][j]令其等于apath；
　　apath与path[i]中其它路径表达式与其它进行比较，获得被apath覆盖的正例集合S；
　　path[i]=path[i]-S；//删除被覆盖的正例
　　LocationIB [i]= LocationIB [i]+apath；}}
　　LocationIBs={ LocationIB [1]， LocationIB [2]，……， LocationIB [m]}；
　　return LocationIBs；}
　　2）确定感兴趣信息块内数據项定位信息。
　　在得到了待抽取信息块的路径集合之后，信息抽取实际上就变成了对信息块内部数据项集合的抽取。而信息块具有相似的格式，且在相似的信息块中往往会含有一定特征可以指导对欲抽取数据项的定位。所以对信息块所包含的DOM树子树进行先根遍历，就可以得到细粒度的欲抽取信息条的Xpath表达式。
　　3）优化定位信息并生成XSLT抽取规则。
　　由以上方法所得信息块内数据项的定位信息以绝对路径形式表示，为了克服绝对路径在抽取信息方面适应性较差的缺点，选择包含所有待抽取信息的共同的最近的祖先节点作为一个参考节点，然后结合感兴趣信息块定位信息集以及信息块内数据项的定位信息，根据每个节点的Xpath形成XSLT文件。该XSLT文件就是抽取规则。
　　3 实验结果
　　当得出了抽取规则XSLT文档后，要构造一个进行信息抽取的wrapper仅需要执行这个XSLT。本文使用了Xalan-J作为XSLT执行引擎。对图2所示Web页面抽取结果为：
　　
　　-这样吃最健康（顶级畅销书，台湾78次印刷）
　　-（台湾）姜淑惠
　　-2009-3
　　-15
　　
　　
　　-好妈妈胜过好老师（一个教育专家16年的教子手记）
　　-尹建莉
　　-2009-01
　　-20
　　
　　抽取结果完全满足我们的抽取要求。为了试验抽取方法的健壮性，在不改变原Web页面数据结构的情况下，调整其内容分布区域以改变结构，再次抽取的结果仍然保持了同样的结果，满足了我们对抽取规则的健壮性要求。
　　4 结论
　　本文介绍了一个基于XML的网页信息抽取方法，我们的最终目的是将隐藏在HTML网页中的数据信息抽取出来，表达为结构化的、扩展性很强的XML文档。由于大部分网站是由一个后台数据库和一些HTML模板所驱动，所以网页中同类信息的表示往往在结构上具有相似性，因此，利用记录结构具有相似性这一启发知识进行Web信息抽取有较好的通用性。同时，结合抽取需求而形成相对路径的定位方法，使得抽取规则具有一定的健壮性，提高了这种抽取方法的可用性。
　　参考文献
　　[1] N Kushmerik. Wrapper induction： Efficiency and expressiveness [J]. Artificial Intelligence， 2000， 118（2000）： 15 - 68.
　　[2] B Adelberg， NoDoSE. A tool for semi-automatically extracting structured and semi-structured data from text documents. SIGMOD 98.
　　[3] Embley DM， Campbell DM， Jiang YS， etc. Conceptual-Model-Based Data Extraction from Multiple-Record Web Pages [J]. Data and Knowledge Engineering. 1999， 31（3）：227-251.
　　[4] Sahuguet A，Azavant F. Wysiwyg Web Wrapper Factory [A]. WWW[C]， 1999.
　　[5] Liu L， Pu C， Han W. XWRAP： An XML-enable Wrapper Construction System for Web Information Resource [A]. In Proceedings of the 16th IEEE International Conference on Data Engineering [C]， San Diego， California， 2000， 611-621.
　　[6] Crescenzi V， Mecca G. On Automatic Information Extraction from Large Web Site [R]. Technical Report DIA-76-2003.

其他文献

住房公积金档案数字化工作的实践

摘要：档案管理工作是住房公积金内部管理工作中的重要内容。本文对住房公积金的档案数字化工作展开了研究，对档案数字化工作的对象、流程、岗位职责等进行了详细的介绍，并结合住房公积金档案数字化工作实践经验，提出了相关建议，为住房公积金档案数字化工作的开展提供参考借鉴。　　关键词：住房公积金；档案；数字化　　0 引言　　随着信息技术和计算机技术的不断发展，社会进入了数字化时代，计算机技术和信息技术也逐渐被

期刊

内外兼修打造一流政工队伍

对于新形势下进一步加强丹阳市卫计委系统政工队伍建设，笔者认为应从两方面着手：一方面是内在因素，即政工干部的自身素质建设，要及时转变观念、不断学习更新知识，适应单位发展；另一方面是外部因素，即单位对政工干部队伍建设的环境营造，要求单位将政工人才培养的核心立足于培养“高素质、复合型、创新型”的政工人才。　　一、企业政工队伍的综合素质要求　　作为卫计委系统，丹阳市卫计委如何进一步加强政工队伍建设，更好的

期刊

税务稽查研究

摘要：房地产业是国家税收的重要来源，加强房地产业的监管具有重要的意义。由于房地产业具有商业周期长、地域性强的特点，给房地产业的税收调控带来一定的影响，因此应该有一个与房地产业相适应的特殊战略，以保证税收监管到位。本文采用调查的方法收集数据，并通过分析房地产行业的行业特点的税务稽查，根据其特殊性，给出了根据房地产税务稽查工作的建议。　　关键词：房地产；税务稽查　　一、房地产行业税源构成　　房地产行

期刊

虚实结合促进乡镇卫生院和谐发展

随着我国社会主义市场经济的发展和完善，医疗卫生体制改革，特别是公立医院改革，现已到关键时段。随着改革的深入，各种矛盾在不断的显现。在探索医院如何改革才能为广大的病患者提供更好服务的同时，探索与创新思想政治工作，也是医院改革整体工作中，不可忽略的重要组成部分。　　在当前社会主义市场经济条件下，在绩效考核的大环境中，必须采取“虚”“实”结合的工作方法加以引导和鼓励，来有效做好思想政治工作，提高广大医护

期刊

浅析如何解决挥发性有机物给环境保护带来的危害

摘要：作为三线城市的新乡，近年来已经很少见到蓝天白云了，究其原因主要是大气污染太过严重，特别是挥发性有机物的大量排放。挥发性有机物，常用VOCs表示，总挥发性有机物有时也用TVOC来表示。目前就新乡市来讲涉及到排放挥发性有机物的行业主要有化工、医药、塑料制品、喷漆、印刷等几个行业，本文以新乡为例来分析一下挥发性有机物的产生、危害及如何防治。　　关键词：挥发性有机物；环境保护；新乡　　挥发性有机物

期刊

高校科研成果评价的实证研究

摘要：高校科研成果评价是高校科研管理的核心内容，对科研成果的评价方式关系到科研发展的方向和水平，本文主要以天津某高校为研究对象，对高校科研成果的评价方式过程进行了实证研究，对其中存在的问题和产生问题的原因进行了分析。　　关键词：科研成果；评价；实证研究　　1 引言　　科研成果的认定与管理工作是科研管理工作的关键组成部分，是整个高校科研工作的核心内容，它以科研管理制度为依据，同时以科研管理系统为信

期刊

浅析戏曲动画在戏剧教学中的利弊

摘要：戏曲动画在近些年来的发展中以其短小精悍的形式和多样化的风格赢得了观众的青睐。如果将这种形式引入戏曲的课堂教学，可以借助动画艺术的时代感为戏曲培养新的观众，有利于戏曲艺术的弘扬与民族动画的发展。然而对动画的欣赏不能取代对舞台表演的直观感受，否则在教学中无法突出传统戏曲的审美特点。　　关键词：戏曲动画；意境；虚拟　　戏曲动画是用动画的形式来演绎中国传统戏曲的一种新的动画样式。从其诞生到现在已经

期刊

基于乘客特征的校园公交优化调查研究

摘要：随着我国高等院校规模的快速扩大和校园交通的飞速发展，校园公交已成为校内人群重要的出行工具。此文在借鉴和总结国内外大学校园交通发展理论和实践的基础上，以长安大学校园公交系统为例，基于大量乘客问卷调查并对校园乘客特征进行了科学分析，从交通系统优化和公交车辆改进两方面提出了符合校园乘客特征的优化建议，为国内校园公交系统的优化提供参考。　　关键词：校园公交；乘客特征；交通优化；车辆改进　　1.校园

期刊

宗教建筑空间组织设计的浅析

摘要：建筑空间有多种组合方式，每种组合方式都能够体现出建筑独特的风格，将会带给人们与众不同的感觉。本文是以罗马的万神庙为研究对象，利用建筑空间组织设计原理对宗教建筑空间组织中的单体空间、空间序列关系、空间序列关系动态分析数轴等各方面进行剖析，进一步了解建筑空间的组合方式对建筑空间设计的重要性。　　关键词：建筑空间组织；空间形态；空间序列关系　　宗教建筑是“中国古代建筑中最为宝贵的一笔文化遗产”。

期刊

科研管理对象——“科研成果”的组成与分类分析

摘要：主要从“科研成果”的范围界定，高校科研管理制度对科研成果的分类与等级划分等方面对科研成果的组成与分类进行了详细的分析。　　关键词：高校；科研成果；科研管理；对象　　1 引言　　科研成果的认定与管理工作是科研管理工作的关键组成部分，是整个高校科研工作的核心内容，它以科研管理制度为依据，同时以科研管理系统为信息化的工具。高校是我国科研力量的重要组成部分，是国家的人才库、思想库、知识库，承担着国

期刊

一种基于数据驱动型Web页面的信息抽取方法

与本文相关的学术论文