基于网站结构分析页面信息提取的方法研究

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:tapril10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在分析网站结构的基础上,把同类信息划归为一个页面组,建立相应的XML模板库,进行web信息挖掘,为实现页面信息快速查询和信息分类提供了很好的方法。
  关键词:网站结构;信息提取;XML模板库
  中图分类号:G20文献标识码:A文章编号:1009-3044(2008)23-845-03
  Research on Web Information Extraction Based on Web Site Structure Analysis
  DUAN Ai-hua
  (Information Engineer School, AnHui University of Finace and Economics, Bengbu 233041,China)
  Abstract: This paper provides web information mining, through classifing similar web pages and building XML formwork base based on web site structure. It offers a good method of fast query about web information and information classify.
  Key words: web site structure; information extraction; XML formwork base
  
  1 引言
  
  现在网络上的资源多如繁星,包含了技术资料、商业信息、新闻报道等各种各样的信息,而且信息容量仍然在以指数形式飞速增长。同时网络上的资源分布非常分散,且没有统一的管理和结构,因此信息获取非常困难。如果我们要查找自己所需要的信息时,要全部记住那些信息在那些网站上,这几乎是不可能的,我们通常利用搜索引擎,但这样得到的是一些网页连接,我们不得不逐个点击这些网页进行查找,这些间接的方法不仅麻烦,而且很不准确。所以我们提出了根据网站结构分析页面信息并且进行提取的研究。
  
  2 相关研究
  
  在这个领域中,研究人员已经作了一些工作,概括起来有如下几类:
  1)Languages for Wrapper Development:通常通过java或perl语言帮助用户进行信息提取。
  ①minerva[1]:利用一组语言来描述产生式,利用产生式规则来进行信息提取,对不能提取的页面进行异常处理。
  ②TSIMMIS [2] :wrapper可以由用户通过说明文件进行定制。说明文件由命令序列组成,每个命令形如 [variables, source, pattern].
  ③WEB-OQL :把HTML文件描述为文档树,记录要提取的内容在文档树上的位置。利用这些位置进行查询。
  2)HTML-aware tools:把输入的文件描述为树状结构,然后用户定义抽取数据的规则,在树状结构上进行信息抽取。
  ①W4F(Word Wide Web Wrapper Factory): 把输入的文件描述为Dom(Document Object Model)tree,然后用户定义抽取数据的规则,在描述的tree上进行抽取
  ②XWRAP[5]:使用用户图形界面引导用户选择预先定义好的标记,并由此产生抽取规则,如果用户对抽取结果不满意,还可以重新选择标记并重新定义规则进行信息抽取。
  ③RoadRunner:通过比较给定的html页面结构产生抽取规则,自动进行信息抽取。
  3)NLP-basedtools:使用过滤、词法、语义分解等建立词语或短语的关系,并产生相应的规则进行信息抽取。
  ①RAPIER(Robust Automated Production of Information Extraction Rules):主要是通过Pre,Post,和Filler等标记从不规则文本进行信息抽取。由于只能从一个文档中抽取一条记录,因此被称为single-slot;
  ②WHISK :从一系列给定的例子导出抽取规则进行信息抽取。由于只能从一个文档中抽取多条记录,因此被称为multi-slot。
  4)Wrapper Induction Tools:从给定的训练例子产生基于分隔符的抽取规则进行信息抽取,一般比较适合html。
  ①WIEN:以带有感兴趣信息的一系列页面作为输入,并且假定这些页面有预定义的结构和特定的说明,由此产生抽取规则并进行信息抽取;
  ②SoftMealy:通过产生fst(finite-state-transducers)规则进行信息抽取;
  ③STALKER:通过一系列的训练例子和ect(embedded catalog tree)结构产生抽取规则进行信息抽取。
  5)Modeling-based tools: 从给定的目标的结构,在web页面里面查找符合该结构的信息,然后用相关的算法把感兴趣的文本段提取出来
  ①NoDoSE(Northwestern Document Structure Extractor):使用交互式界面半自动定义文档结构,定义抽取规则进行信息抽取;
  ②DEByE(Data Extraction By Example):让用户使用图形化界面从一系列训练用例中挑选合适的页面产生抽取规则进行信息抽取;
  每一种方法都各有侧重和优缺点,这些方法都没有考虑页面所在网站的结构信息,本方法在网站的结构信息入手,综合其他方法的优点进行信息提取。
  
  3 网站结构分析
  
  Web信息挖掘就是指在大量样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的信息提取过程。例如,当Web信息挖掘系统发现“信息源”,它就会自动过滤掉与“信息源”无关的数据,这样可以大大减少用户的检索时间和成本。Web信息挖掘系统除了处理传统数据库中的数值型结构化数据外,处理更多的是文本、图像、Web信息资源等半结构、无结构的数据。
  页面之间的链接关系和页面的URL(Uniform Resource Locator)虽然说有一定的规律,但是有许多不规律的情况存在,因此在生成树状图的时候有可能出现该树状图和网站的实际结构不一致的情况,尤其是可能找不到叶子页面,出现环状图。如果这种情况发生,则后面的工作就有可能全部错误,因此必须找到一个合适的算法防止这种情况的发生。
  分析相似页面的结构和内容的变化情况,生成自适应信息模板。对相似页面我们就可以生成自适应信息模板,这个模板就可分为不变部分和变化部分,我们感兴趣的是变化部分。根据信息模板的结构生成目标xml。我们就可以把变化的部分用一个变量来存取,把变量的内容生成目标xml。接下来的工作分成三部分:
  3.1 查找相似页面
  所谓的相似页面也就是页面结构和页面的内容有许多相同的那些页面。例如:
  http://news.sohu.com/ 页面里面有许多超链接,如:
  http://news.sohu.com/20050106/n223815627.shtml
  http://news.sohu.com/20050106/n223816707.shtml
  是http://news.sohu.com/ 的子节点,并且在同一层
  难点:如果找不到如上所示那样相似页面,即树状结构图的许多叶子都不是相似页面,发生这种情况后对这些页面的分析将会失败,不能生成信息模板,当然也就不可能输出xml(Extensible Markup Language)了。
  3.2 分析相似页面的结构和内容的变化情况,生成自适应信息模板
  对此类的相似页面我们就可以生成自适应信息模板,这个模板就可分为不变部分和变化部分,我们感兴趣的是变化部分。
  3.3 根据信息模板的结构生成目标xml
  我们就可以把变化的部分用一个变量来存取,把变量的内容生成目标xml。
  获取网站的所有页面,根据这些页面的内容以及这些页面之间的链接关系,计算网站的结构,根据网站的结构和页面的内容特征对页面进行归类,对同一类的页面进行信息模板的自动生成。
  
  4 相似页面判断
  
  4.1 组内链接度(GILD)
  一个页组G 中页面的超链接关系是一个有向图Graph(G),有向图的节点是页组中的页面,有向图的边对应页面之间的链接.组内链接度用于刻画组内页面间的链接紧密程度.
  定义1:组内链接度(group inter-link degree,简称GILD)定义为:
  其中|Graph(G)|为有向图Graph(G)中的边数,|G|为页组G 中的页面数.
  当页组内的任意两个页面之间都没有链接时,则其GILD 为0;反之,页组内的任意两个页面都是相互链接的,则其GILD 为1,按照本文对兴趣性的定义,这样的页组就没有必要出现在挖掘结果中。
  为获得类似于树结构的清晰的拓扑结构图并进行裁边操作,编写了一个robot 程序。目标是获取一个网站内部的拓扑结构,所以对站外链接不予分析。判断一个链接是站内链接
  还是站外链接的标准如下:
  1)所有使用相对路径的超链接都属于站内链接;
  2)所有使用绝对路径的超链接中,二级域名相同的链接都被视为站内链接,二级域名不同的链接都被视为站外链接。
  网页中有大量的基于导航和广告作用的超链接,如果不加处理,所得到的拓扑结构将是杂乱无章的,这将对后面的分类抽取造成困难。因此,需要对站内链接进行裁边操作,原则如下:
  1)除去基于非HTTP 协议的超链接(如FTP、LDAP、MMS、RTSP 等);
  2)除去图像、音视频、CGI 程序、电子邮件等链接;
  3)除去向上链接和多余的导航链接。
  前面两个原则是使得最后的超链接只剩下基于HTTP 协议的网页文本链接,第三个原则用来清晰结构、降低拓扑结构的复杂度。程序用宽度优先遍历法实现,用树结构存储拓扑图。
  4.2 简单相似度模型
  所谓的简单相似度模型,即采用网页链入链接的向量内积来度量网页间的相似度。简单的说来,我们使用两个网页具有相同链入链接的数量来衡量这两个网页的相似度,如果具有越多的相同的链入链接,那么这两个网页的相似度也就越高。
  为了获得简单相似度形式化的表达,我们先在网络中生成每个网页的链入链接向量V,采用的方法是对搜索引擎所涵盖的全部网页进行编号:l, 2,…,n,对于任意网页j, n维向量V中的第i个分量为1当且仅当有网页i指向网页j的超链接,否则为0。这里假设网页j有指向自身的超链接时,该向量的分量j为0。这样,向量内积被用来进行网页间相似性度量的形式化表示为sim(i,j)=Vi·Vj 。
  很明显,如果网页i和j是不同的,那么sim(i,j)表示了那些共同指向网页i和j网页的数量,可以简单的描述网页i和j的相似度。
  
  5 数据预处理
  
  数据清洗指删除Web服务器日志中无关的数据,缩小被挖掘数据对象的范围。
  由于服务器记录的是下传到客户端的一个个文件流,大多数情况,只有日志中HTML文件与用户会话相关。HTTP协议要求对来自Web服务器请求的每个页面进行单独的链接处理,H丁TP协议使用的HTML文本被下载的同时,根据其中的标记,图形及脚本文件被作为单独韵链接而被分别下载,这样同一用户的请求在服务器日志文件中会有几条记录与之对应。Web日志挖掘的目的是获得用户的行为模式,而通常情况下这些图形及脚本文件的记录信息与分析目的是无关的,因此可以消除这些无关的项来达到数据净化的目的。并不关心那些用户没有显式请求的文件,所以通过检查URL(统一资源定位)的后缀删除认为不相关的数据。例如:将日志中文件的后缀名为GIF, JPEG, JPG, gif,Jpeg, jpg, css, is和map的项删除,后缀名为cgi的脚本文件也应被删除。
  我们设计了数据提取技术,如图1所示。
  
  6 基于网站信息提取模型
  
  在利用组内超链接和相似度判断后,得到网站页面的拓扑结构。在通过数据预处理过程,得到结构简洁的页面,以及相应的页面组,把每一类页面叫做一个页面组。形成不同的XML模板库。
  图2网页信息提取器结构
  Robot在对Web搜索的过程中,将每次搜索的结果(文档名称、URL.概述、链接等信息)存放在网页数据库中。由搜索程序Robot在Internet各站点上搜索会产生大量的信息,将这些HTML格式的信息文件取到本地之后,由处理程序进行加工,将其辅助部分去掉,并按一定的策略将其中可用于查询的信息和相应索引存储到数据库中,形成本地查询数据库,以后当用户检索时,就不必到远程站点去获取HTML格式文件了。网页数据库一般采用大型的数据库。如ORACLE. Sybase, Informix等。
  自适应网站的基础是具有强大数据分析处理功能的Web挖掘,而在当前的信息分析技术中,Web挖掘是最具有应用前景的一种技术。所以自适应网站研究不仅具有广阔的商业前景,而且将给计算机科学诸多领域的发展带来深远的影响。随着知识经济的发展,自适应网站最终将成为一种向用户提供自适应服务的有效手段,必将在人们的经济生活中有着更广泛的应用,扮演更重要的角色。
  因此对Web挖掘和自适应网站的研究具有重要意义。
  文档解析器用来载入一个XML文档,检验XML文档的合法性,将文档中的内容分解成一个个可以识别的对象,然后就可以通过DOM来获取和操作整个文档。
  由于XML 能够标记更多的信息,所以它能使用户很轻松地找到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次,互相依存的系统,数据数,元数据,超链接结构和样式表。
  那么页面就按主题分成了各类页面,那么使用XML文档既可以实现内容主题的表述,又可以体现核心内容的显示。
  
  7 结论与展望
  
  互联网络信息挖掘就是指在大量样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的信息提取过程。通过网站结构分析页面信息提取方法,会自动过滤掉与“信息源”无关的数据,这样可以大大减少用户的检索时间和成本。
  
  参考文献:
  [1] CRESCENZI Y, MECCA G.Grammars have exceptions[M].Information Systems,1998:539-565.
  [2] HAMMER J, McHVOH J, GARCIA-MOLINA H. Semistructured data: The TSIMMIS experience[M].In Proceedings of the First East-European Symposium on Advances in Databases and Information Systems,1997:1-8.
  [3] 刘丽珍,宋瀚涛,陆玉昌.网络结构挖掘的关键分析[J].计算机应用研究,2003,20(5):116-118.
  [4] 孙及园,林锦贤.对Web 网页的查询及信息提取[J].福州大学学报(自然科学版)2000,28(3):93-97.
  [5] 谢振亮,何丕廉,陈霞,孟昭鹏基于网站结构挖掘的Web文档自动分类[J].计算机应用,2003,23(7):37-39.
  [6] 张诗军.基于XML的Web数据库发布及信息提取系统的设计与实现[D].暨南大学硕士论文,2003.
其他文献
材料成型技术在自动门控制系统逐渐向大型化、复杂化和智能化的方向发展.现在,国内外的发展状况自动门是不是很均衡,国外产品性能好,但价格比较昂贯,而国内产品虽然价格便宜,
创新是经济增长源泉,十八届三中全会报告中明确提出了构建创新驱动发展战略,强调以企业为技术创新主体,激发企业创新活力。提升企业创新能力是实现我国经济转型发展的关键。然而
财务会计档案管理是学校档案管理的组成内容之一.高校的财务档案应该保证真实性、完整 准确性,但当前我国高校的财务档案管理工作还存在着许多的问题,定程度上影响了财务管理
近日,英威达新推两种地毯,分别为适维和威纱。前者专为中国市场量身定制,主要应用于酒店客房;后者则堪称是英威达现有产品汇总中最具性价比的一款纤维产品,抗污性能显著,可满足中国
当今时代是一个知识经济时代,我国是一个人口众多的国家,按照常理来说,我国应该是一个人力资源丰富的大国.但是,我国也存在人口素质低的问题.在我国经济持续发展的今天,应该
采用溶液培养方法,研究茉莉酸对玉米幼苗叶片抗镉性的影响。结果表明,镉胁迫显著提高玉米叶片丙二醛(MDA)、H_2O_2含量和超氧化物歧化酶(SOD)、过氧化氢酶(CAT)、谷胱甘肽转
当今,品牌逐渐成为一种国际语言迈进世界不同国家与地区,它所起到的作用也日益突出.21世纪,在市场竞争逾渐激烈的形势下,现代企业已经迈进了品牌竞争力时代,品牌建设逐渐转变
本文设计了基于单片机的远距离温度巡检系统的应用,整个系统分为硬件和软件两个部分.设计的系统测量原理简单,选用精密测量元器件和抗干扰、低温精密电子元件,测量稳定可靠、
10月11日,由立信染整机械有限公司(简称“立信”)主办的“创新毛巾染色工艺应用及节能减排”工作坊活动在河北高阳成功举办。活动受到华北地区相关染整企业的关注,河北三利、河北
近日,OEKO-TEX启动了自助服务门户优秀应用企业评选活动。10月份的第一次评选有十家企业脱颖而出,OEKO-TEX奖励每家获证企业一个苹果的iPod nano(16GB),而这份小礼物会被授予