【摘 要】
:
Wrapper是Web数据集成的重要组成部分,然而众多的Wrapper生成方法都面临着维护的问题,因为Web页面经常发生变化,Wrapper的维护成为一项很难解决的问题.人们研究快速有效地自
【机 构】
:
中国人民大学信息学院,北京,100872
论文部分内容阅读
Wrapper是Web数据集成的重要组成部分,然而众多的Wrapper生成方法都面临着维护的问题,因为Web页面经常发生变化,Wrapper的维护成为一项很难解决的问题.人们研究快速有效地自动生成Wrapper目的之一也是减小维护的代价,所以,在这种状况下,一旦Wrapper失效,维护工作就变成重新生成Wrapper.显然,这种办法只是权宜之计,而且重新生成Wrapper的代价较大.手工的方法要修改Wrapper代码,需要大量时间;机器学习的方法需要提供大量的例子并标记出抽取项,耗费大量时间;用户指导的方法也需要与用户交互的时间,因此,需要探索新的方法来解决Wrapper的维护问题.本文在WraPPer维护问题上给出了一种有效的解决方法。该方法是建立在模式的基础上,能够适应一些页面的简单变化(如修饰变化),也能够适应部分较复杂的变化,如(结构变化,块间变化,混合变化)。尽管该方法不能实现所有变化的自动维护,但是可以解决部分变化的自动维护问题,因此是一种有效的方法。
其他文献
WWW的迅猛发展使其成为全球信息传递与共享日益重要和最具潜力的资源,如何有效利用这个巨大的信息资源已经成为众多研究者面临的新课题.Web仓储系统使用物化视图方法管理和维
内容摘要:预设和生成是一对统一对立体,课堂教学既需要预设也要生成。在课堂教学中只有充分预设,注重生成,善于捕捉,才能有效发挥学生的主体性,彰显教师个性,提高教学效果。 关键词:预设 生成 课堂教学 福建师范大学余文森教授认为:“没有预设的课堂是不负责任的课堂,而没有生成的课堂是不精彩的课堂”。预设指的是在课堂教学前老师根据班级具体情况对整个教学过程的先期假设,其中包括教学设计、教学内容的组织、
本文介绍了我们所开发的一套简单实用、规模适中、适合我国国情的数据仓库工具集NGDW-1,并用于实际的数据仓库系统的应用开发中。该工具集面向我国的中低端数据仓库应用,具有良
背景:随着社会的发展,人均寿命延长,社会的老龄化问题日趋加剧。老年人的健康状况和生活质量备受关注。目的:了解影响老年人生存质量的几种常见老年病的现状和分布特点。设计
搜索引擎是一种用于帮助Internet用户查询信息的搜索工具,它根据一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信
Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息.为了减轻这个困难,人们开发了许多工具来辅助寻找期望的信
随着我国产业结构调整和优化升级,租格寄售这种新型的商业模式所展现出来的社会效益和经济效益是不可估量,寄售实体店内化妆品销售占据较大份额,成为化妆品流通的又一新兴业
数据仓库系统的特点主要是数据量大、要求查询速度快,用户的查询只关心综合数据,而很少关心细节数据.并行数据仓库系统的存储管理与以往的并行系统存在着很大的差异。由于数
随着万维网的日益普及与强大,在网络上搜寻所需的信息变得越来越重要了.诸如AltaVista,Hotbot之类的搜索引擎应运而生.典型的搜索引擎是基于文本匹配的,针对用户的查询会返回
随着新经济时代的到来,信息爆炸使得存储的扩容和升级已经远远超出了处理器和网络的升级速度.UCBerkeley的信息管理学院最新研究成果显示:全球每年产生15亿GB的信息,平均250M