基于重复模式的Web数据抽取与集成应用

被引量 : 0次 | 上传用户:yx2207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,Internet已经成为人们获取信息的重要途径,而基于关键字检索的Internet搜索引擎又是人们从互联网上查找信息的主要方法。从互联网获取信息的主要局限性在于,在互联网海量的Web页面中很难定位特定的知识;而搜索引擎又很容易将所需知识淹没在大量的低相关度,甚至无关网页中。另一方面随着信息技术的进步和人们的实际需要,涌现出了一些全新的基于Web的应用,例如监控股票市场的实时行情、各个电子商务网站的商品价格比较等等。仅凭传统搜索引擎技术和Web查询技术无法真正满足这些新兴的需求。与信息检索技术不同的是,数据抽取技术更侧重于从Web文档集合中发现相关联的文档,并从中抽取出用户感兴趣的信息,即将HTML等半结构化的数据转换成为结构化的数据。Web数据库的广泛使用使得大量高质量的信息无法被传统的搜索引擎索搜索到。这种基于数据库的应用被称之为Deep Web。Web数据库依据用户特定的查询要求或条件动态的生成Web页而,即查询相关Web页面中的数据记录之间具有极高的代码结构相似性,也就是说Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。本文从分析Web文档与DOM树的对应关系入手,提出了一种基于重复模式的高效Web自动抽取算法——DES算法,同时利用集成工具ODI进行数据集成,获得可以直接被其它的应用程序利用结构化数据,进一步完成信息检索、数据挖掘、机器翻译、文本摘要等后续Web信息处理。HTML对应的DOM树是该方法的Web数据结构化和分析抽取的基础。该抽取算法首先通过比较同一模板的两个样本网页的内容相似度,对DOM树进行裁剪,准确定位待抽取数据区域;其次通过TOP-DOWN树匹配算法进行树的结构相似件比较,发掘数据区域中多条数据记录的重复模式,得出数据记录的粒度,进而生成抽取规则。从而实现对DOM树中的数据记录的发现及抽取。最后论文应川基于相似性比较的方法对原型系统进行了实现。实验表明,该算法对于各类动态Web网页的信息抽取有着很好的效果。
其他文献
亚硝基二甲胺(NDMA)是亚硝胺类污染物的代表物质,对人类具有潜在致癌性,在原水和消毒后的出水中都曾被检出。常规的处理方法不能对其进行有效控制,于是需要强化处理技术对其进行去
小麦的品质直接关系到人们身体的健康。在储藏过程中,小麦极易受害虫侵蚀,形成虫蚀小麦。虫蚀小麦影响小麦的外观,降低小麦的商品价值和使用价值,影响小麦粉的工艺品质、食用
传播媒介与文化:社会科学与人文学研究的三个模式(上)潘忠党传播媒介与我们的日常交往,包括跨文化的交往,交织在一起,与传播媒介交往是我们日常社会交往活动中的重要组成部分,同时,我
疆域作为国家占据或控制的地理空间范围,是国家形成和国家活动的基础,并反过来支撑着国家的发展。然而,国家的疆域又不是一成不变的,它会随着社会历史条件的变化而变动,在不
目的:观察逍遥丸治疗肠易激综合征腹泻型的疗效。方法:治疗组80例采用逍遥丸治疗,对照组78例应用思密达冲剂,观察4周。结果:治疗组能显著改善肠易激综合征腹泻型的临床症状,
目的(1)建立单药和联合用药防耐药突变选择窗(MSW)的测定方法。分别测定头孢哌酮钠舒巴坦钠(SCF)、左氧氟沙星(LEV)、美罗培南(MEM)单药应用和联合应用的MSW,比较联合用药和单药相比MSW
<正>全自动血细胞分析仪因其具有操作便捷、重复性好、精密度及准确度高、结果稳定等优点,又减少了人工计数各环节中所产生的误差,因而被广泛普及。EDTA二钾作为实验室常用抗
1979年日本东京银行在北京开办了代表处,开创了新中国成立后外资银行在中国设立金融机构之先河。自我国加入WTO以来,认真履行入世相关承诺,有序推进银行业的’对外开放。2006
防震减灾科普是防震减灾事业的重要支撑,与科技创新同等重要。防震减灾宣传工作要不断丰富内涵,创新科普方式,打造科普精品。建立适应新媒体宣传的科普产品符合防震减灾宣传
随着西方人文地理学研究越来越关注人与社会的实际问题,城市地理学开始由宏观层面的城市体系研究向微观层面的消费空间、居住空间、商业空间等研究转变,更加强调城市空间变化的