基于DOM的Web信息抽取方法

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:xeabor1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。
其他文献
从资源角度入手,选取绿色北京与污染受害者法律帮助中心为典型案例,考察北京ENGOs微观参与情况。北京ENGOs参与环境保护的特点有:资源拥有情况很大程度上影响参与主体构成;城
城市地理信息系统(UGIS)为城市规划,建设,管理提供了一种强有力的工具,本文先分析建立地理信息系统的重要性,进而对系统的功能结构,系统的软,硬件选择。系统的数据与分类,及建立系统中存在
就红麻制浆造纸的研究和应用现状进行了综述,涉及的主要方面包括红麻的原料特性,红麻研制化学浆,红麻研制高得率浆及红麻在生产上的应用情况。概述了红麻资源情况和红麻制浆废液
电子白板是网络环境下进行直观信息交流的典型方法之一。同时颁式教学和多媒体会议系统等实际应用的基本框架,本文提出使用作者的CPVM模型,实现微机局域网上基于Windows的电子白板,该白板可
在计算机专业教学中引入虚拟机作为辅助手段,目前已成为计算机教学领域重要的教学辅助方法,也被计算机教学工作者进行了较多的研究和探讨。本文主要介绍虚拟机技术配合VMware虚
网络安全技术,尤其是网络信息的安全,关系到网民、企业甚至是国家的信息安全。提高信息安全意识,加强信息安全管理,将各种安全技术,结合在一起,才能生成一个高效、适用、安全的网络
本文根据统一建模语言的系统建模机制和管理信息系统的特征,采用基于B/S结构的三层分布式系统的设计方案,通过对系统进行需求分析、详细设计和系统实践,利用Java语言、MySql数据
随着中国市场经济体制的逐步建立以及社会结构的日趋分化,如何有效地促进中介组织的快速发展,建立完善的中介组织体系是中国和谐社会建设中的重大课题。文章试图对中介组织在现
本文详细介绍了C企业的网络系统整体架构以及该方案的技术特点。
本设计改进了气一气换热器传统的列管布置方法,强化了气体间的传热过程,提高了换热器的总传热系数。本设计用于硫酸生产中转化工段所用的气-气列管换热器的设计,可以把总传热系数