论文部分内容阅读
随着Intemet的快速发展,Web网页的数量也不断增加,尽管从网上可以查找到几乎所有知识领域的相关资料,但是对数据的操作和控制却不尽人意。为了更加有效地利用网络资源,从中获取有用的数据资料,研究人员开创了web数据抽取这一领域。利用数据抽取技术,对网页的结构和数据特征进行分析,可以抽取出网页中用户感兴趣的数据,以结构化的形式进行集成和保存,以供XML查询语言或者SQL语言查询,或者供其它的应用程序使用。Wrapper是从网页中抽取数据的程序,构造准确、健壮和通用的Wrapper可以使网页免受结构变化的影响,且减少人为参与,但是现有的各种Wrapper有着不同的局限性,在精度、健壮性和通用性方面难以达到很高的要求。本文利用标准的XML技术来解决数据抽取问题,提出一种基于XML技术的web数据抽取方法。
作者的主要工作如下:
(1)XML技术的发展使得基于XML的web数据抽取方法成为web数据抽取的趋势,本文对三种web数据抽取方法进行了分析和比较。
(2)在详细分析和比较数据抽取技术中三种常用的信息定位方法的基础上,应用XPath和XQuery技术在数据转换和定位方面的优势,提出了基于树的绝对路径和属性相结合的信息定位方法APTA(Absolute Path of Tree &Attribution),综合了基于树的绝对路径的信息定位方法和基于属性的信息定位方法的优点,实现了对信息更加准确的定位。
(3)利用HTML Tidy工具对待抽取页面进行清洗,将web数据抽取过程以及改进的定位方式放在XML语言编写的配置文件里定义,根据配置文档中自定义的元素和结构编程实现基于XML的web数据抽取。
(4)根据Shared Inlining模型将XML数据型的抽取结果转换为关系表型数据,使得可以利用关系数据库已有的理论基础和应用平台最大限度地实现对web信息的再利用。
(5)虽然本文的基于XML的web数据抽取方法的F值还未达到理想值,但与三种基本的信息定位方法的web数据抽取方法相比较,其F值是最优的。所以本文的基于XML的web数据抽取方法在功能上还是令人满意的,对基于XML的web数据抽取技术的研究与应用具有一定的参考价值。