Trawling算法在Web结构挖掘中的应用

来源 :中小企业管理与科技·上旬 | 被引量 : 0次 | 上传用户:nimin518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在Web信息检索中,如何能够提取出与某个主题信息相关的网页变得异常重要,web结构挖掘作为web数据挖掘的一个重要方面,主要挖掘web潜在的链接结构模式,通过分析一个网页链接和被链接数量以及对象来建立web自身的链接结构模式,可以用于网页归类,本文探讨了Trawling算法在Web结构挖掘中的应用。
  关键词:Trawling算法 web 数据挖掘 结构挖掘
  
  0 引言
  随着互联网的飞速发展,人们越来越多地在互联网上发布和获取信息。web已经成为信息制造、发布、加工和处理的主要平台,其涵盖的信息面之广阔、信息量之丰富、都使得它毫无疑问地成为当前最大的信息资源库。随着海量信息涌入万维网,互联网中特有的许多问题,诸如超大规模的非结构化文档数量、良荞不齐的网页质量,包含在文档中的大量多媒体信息,甚至相当含糊或不规范的用户查询表示等,必然给检索数据带来很大的困难。因此,在Web信息检索中,如何能够提取出与某个主题信息相关的网页变得异常重要。将传统的数据挖掘技术跟web结合起来,进行web挖掘活动将更有效的从web中抽取感兴趣的、潜在的、有用的信息。web挖掘是一项综合技术,涉及了统计学、人工智能、模式识别、并行计算、机器学习、数据库等多个领域。web结构挖掘作为web数据挖掘的一个重要方面,主要挖掘web潜在的链接结构模式,通过分析一个网页链接和被链接数量以及对象来建立web自身的链接结构模式,可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。
  


  


  1 Web数据结构挖掘
  1.1 web数据挖掘 web数据挖掘起源于数据挖掘,数据挖掘(Data Mining)是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信息。数据挖掘的提出最初是针对大型数据库的,但是从更广泛的角度来讲,数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。因而,数据挖掘的对象不仅仅可以是数据库,还可以是任何组织在一起的数据集合,如www信息资源等。WWW以超文本的形式给用户提供了包含从技术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息,可以说是web当今世界上最大的电子信息仓库,蕴含着巨大潜在价值的知识。然而,Internet是一个具有开放性、动态性、异构性的全球分布式网络,资源分布分散,没有统一的管理和结构,这就导致了信息、知识获取的困难,即所谓的Rich Data poor Information的问题。因此,运用现有数据挖掘技术对分布的、异构的web信息资源进行挖掘,就成为了数据挖掘技术的挑战和未来的发展方向,由此产生了基于web的数据挖掘。web数据挖掘(web Data Mining),简称Web挖掘,是一项综合技术,涉及web、数据挖掘、计算机语言学、信息学、数据库技术等多个领域。web数据挖掘是针对包括web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种web数据源,在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。
  1.2 Web数据结构挖掘 在逻辑上可以把Web看作是位于物理网络之上的一个有向图G=(V,E),其中节点集V对应于Web上的所有文档,而有向边集E则对应于节点之间的超链接(Hyperlink)。对节点集作进一步的划分,V={Vi,Vj}所有的非叶节点Vij是HTML文档,其中除了包括文本以外,还包含了标记以指定文档的属性和内部结构,或者嵌入了超链接以表示文档间的结构关系。叶节点Vi可以是HTML文档,也可以是其他格式的文档。Web上信息的多样性决定了Web知识发现的多样性,当前Web上的信息主要分为三类:①Web页面中的内容,包括文本信息和各种多媒体信息;②Web页面中超链接之间相互引用的数据;③Web服务器上的用户登录网站的访问日志数据。
  由此Web数据挖掘可以分为Web内容挖掘(web Content Mining)、web结构挖掘(Web Strueture Mining)、Web使用挖掘(Web usage Mining)三大类(图1)。
  Web结构挖掘即挖掘Web潜在的超链接结构模式,通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息,帮助用户找到相关主题的权威站点。Web结构挖掘的主要内容在于超链接分析,即通过分析页面的链接关系来研究网页的引用关系。超链接分析最早被用于搜索引擎,它的基本原理就是通过统计分析互联网上哪些页面被链接的次数多,那么该网页就被认为是比较重要的页面或者权威页面(Authority Pages)。与传统的搜索引擎使用的基于词频统计的查询结果排序算法相比,基于超链接分析的算法的优势在于它提供了一种客观的、不容易作弊(一些Web文档通过增加不可见的字符串用来欺骗传统搜索引擎)的Web资源评价方法。Web结构挖掘还应用于网站架构上,一个架构完善的网站可以提高使用者浏览的兴趣、吸引更多的使用者上线浏览。此外,Web结构挖掘还可以用于对Web页进行分类,预测用户的链接使用以及链接属性的可视化,对各个商业搜索引擎的Web页数量进行统计分析等。
  2 基于有向二分图的Trawling算法在Web结构挖掘的应用
  拖网(trawling)算法是建立在web页面上集心页面与权威页面的二分图关系上的。它从二分有向图的角度对互联网上的社给出了一种明确的定义描述。根据随机二分图的理论,一个足够大而稠密的随二分图将以很高的概率包含一个完全二分有向图,那么如果将某个社区的链接构看作一个大而稠密的二分有向图,则社区的核就可以用一个完全二分有向图complete bipartite graph)来表示。具体到互联网环境中,可以对上述概念有如下观的理解:如果在互联网上存在一个某种主题的社区,那么这种二分的核必将含在其中。一个二分有向图是这样一个图:图Kij的节点集合可以被分为两个集合,用(ran)和c(center)来表示。集合F中有i个节点,集合C中有j个节点,并且合F中的每个节点到集合C中的每个节点都存在一条有向边。拖网算法数据来源不是依据某个主题,而采用的是一般的爬取结果,通过扫描数据集合发现所有潜在的Fan集合,同时也确定了Center集合。然后通过重复的包含/排除剪枝得到所有的核,最后采用关联规则挖掘算法(Priorial gorithm)聚类为较小规模的核的集合。最后,每个核就是一个社区。
  拖网算法为:①获取数据源,如web搜索结果的备分;②删除所有重复或镜像页面,以防产生虚假网站核;③由于只考虑那些潜在的网站,所以删去入度超过某一值(比如50)的所有)center;④考虑每一条边,对于指定的有向完全二分图的要求,或者产生一个相应的网站核,或者删除这条边,无论如何,都将移去这条边;⑤对于扫描到的较小规模的网站核,即有向完全二分图,滤去那些fans中包含来自同一个域的多个fans的结果;⑥一个有向完全二分图的任何真子集都是有向完全二分图,通过aPriori算法发现所有更大规模的网站核;⑦对于找到的网站核,使用HITS算法将他们扩展为真正的网站。HITS(Hypertext Indueed Topic Seareh)算法是关于超链接的检索算法。该算法通过对网络中超链接的分析,利用页面的被引用次数及其链接数目来决定不同网页的权威性。Hub和Anthority的关系可以用图2来表示:
  因此,一个Hub页应该指向许多好的权威页,而被许多Hub页指向的一定是权威页。HITs算法中网页的Anthority权重和Hub权重有相互增强的关系。HITS算法的实现过程:根据用户查询请求,首先用一个现有的商业搜索引擎进行查询,取其部分查询结果(约200个左右)作为算法的根集(RootSet),记为RQ。由于这些页面中的许多页面是假定与搜索内容相关的,因此它们中应包含指向最权威页面的指针。所以,对RQ中每一个节点,将所有指向该节点或该节点所指向的网页补充进来形成基集(BaseSet),记为BQ。计算BQ中每一个网页的Anthority权重和Hub权重,这是一个递归的过程。
  拖网算法中使用的共同引用过于严格而排除了一些可能的潜在网站,造成有用网站的遗漏。通过宽松引用(relaxed-cocited)重新定义了稠密二分有向图和完全二分有向图,使得一些原来被排斥在外的页面包括进来。拖网算法是针对整个Web爬取结果进行的,因此,发现的网站较为完整。而且,拖网的结果是客观的,与主题无关。
  
  参考文献:
  [1]Gordons.Linoff Michael J.A.Berry等著.沈钧毅,燕彩蓉等译.Web数据结构挖掘:将客户数据转化为客户价值.北京.电子工业出版社.2004.
  [2]秦拯,张玲,李娜.改进的PagcRank在Web信息搜集中的应用.计算机研究与发展.2006(6).
  [3]高琐,谷士文,唐琏.基于链接分析web社区发现技术的研究.计算机应用研究.2006(07).
其他文献
摘要:腹腔镜影像手术因出血少、创伤小、痛苦轻、恢复快、腹部美容效果好、住院时间短、患者易于接受等优点而广泛用于妇科临床,成为首选的手术模式。而术中冲洗致手术视野清晰,清洁腹腔,对手术成功起着关键作用。以往传统的方法用随机的压力泵冲洗,此方法有很多弊端,实用新型将冲洗和吸引装置集于一体,使冲洗和吸引能自动进行,大大缩短了手术时间,且设置了消音器,降低了工作噪音,为医生创造了一个更好的手术工作环境。操
期刊
摘要:本文主要论述了PLC在运行过程中所受到的干扰来源,以及解决这些干扰的一些措施,另外还对变频器的抗干扰问题进行了一系列讨论。  关键词:PLC控制系统 干扰 变频器     0 引言  随着科学技术的发展,PIC在工业控制中的应用越来越广泛。PLC控制系统的可靠性直接影响到工业企业的安全生产和经济运行,系统的抗干扰能力是关系到整个系统可靠运行的关键。自动化系统中所使用的各类型PLC,有的是集中
期刊
摘要:本文祥细介绍了PLC和变频器对中央空调进行节能改造的原理及节能效果的显著性和可行性。  关键词:PLC 变频器 中央空调 节能改造    1 概述  中央空调系统是现代大型建筑物不可缺少的配套设施之一,电能的消耗非常大,约占建筑物总电能消耗的50%。由于中央空调系统都是按最大负载并增加一定余量设计,而实际上在一年中,满负载下运行最多只有十多天,甚至十多个小时,几乎绝大部分时间负载都在70%以
期刊
摘要:计算机网络化管理的应用,必将带来IT设备组的扩增。为此,机房设备的平稳搬迁将是一个不可低估的工程。本文结合作者在此方面的工作实践,整体阐述对于IT设备组进行搬迁的必要技术分析及作者见解。  关键词:机房 设备 搬迁 规划    0 引言  晋煤集团通信分公司承担着矿区固话、宽带及工业信息化系统的综合业务,拥有众多的通信、计算机网络、矿井监测监控等核心及终端设备。我们的机房管理历经了由分散到集
期刊
摘要:嵌入式系统与Internet技术的结合已经成为嵌入式系统研究领域的一个新兴前沿课题,这就是嵌入式Internet技术。嵌入式Internet技术是一种设备接入技术或者说是一种异种网络互连技术,它主要解决的问题是通过Web和嵌入式技术实现从不同子网、不同的物理区域对接入到Internet的设备和异类子网进行监控、诊断、测试、管理、及维护等操作,从而使用户对接入到Internet上的各种设备或其
期刊
摘要:在6~66kV电力系统中普遍采用中性点不接地或经消弧线圈接地的小电流接地系统方式,当系统发生单相接地故障时,运用幅值相位法排除接地故障。  关键词:小电流 接地 方法    0 引言  在6~66kV电力系统中普遍采用中性点不接地或经消弧线圈接地的小电流接地系统方式,当系统发生单相接地故障时,由于不能构成短路回路,接地故障电流往往很小,系统线电压的对称性并不遭到破坏,系统还可继续运行一段时间
期刊
摘要:数字化校园网建设是高校信息化建设的重要内容,本文简要的介绍了SOA体系架构以及数字化校园的概念和特点,并且在分析现有的数字化校园建设的弊端的基础上,提出了基于webservice服务的SOA架构,采用统一身份认证服务的设计来构建高校校园网的方案,构成具有统一用户、资源等功能的平台,复用性高、扩充性好,从而实现现代化科学管理的高校数字化管理。  关键词:SOA 数字化校园 统一身份认证 服务 
期刊
摘要:本文介绍了UPS电源系统的基本组成、原理及特点,并对如何对其维护做了详细的阐述。   关键词:UPS 储能电池 逆变器 整流器 静态开关    0 引言  对于商业和工业工艺装置而言,连续的优质电源供应是非常关键的。电源中断甚至微小的扰动都将打断工艺链条,最终造成系统停止运行。因此,UPS系统的关键功能就是保护那些不能承受轻微电压扰动或冲动的装置(也称为用户或负载)的电源供应。公用工程提供的
期刊
摘要:笔者对我国区域产业结构发展与现状进行了实证性分析,阐述了加强对区域产业进行宏观调控和制订《区域产业结构调控法》的必要性和可行性,并在此基础上对该法的调整对象、法律地位、基本原则和主要内容进行了论述。但笔者认为,区域产业结构的协调、人与自然的和谐发展,制定科学合理的《区域产业结构调控法》固然重要,但更重要依靠市场的培育、政府职能的转变和社会整体认识的提高,这是一部《区域产业结构调控法》所不能及
期刊
摘要:分析和研究了授权用户和认知用户共享频谱的一种算法的性能。针对阴影效应或信道深衰落时,单用户频谱感知算法无法识别是频带未被使用还是信道处于深衰落的情况,在频谱感知功率控制算法上进行了改进,以克服这种算法的不足。改进后的算法能有效地控制认知用户的发射功率,避免对授权用户产生有害的干扰。仿真结果表明改进后的算法克服了单用户频谱感知算法的不足,频谱感知的性能明显提高。  关键词:认知无线电 功率控制
期刊