论文部分内容阅读
计算机技术和互联网(Internet)的迅猛发展,使Web发展成为一个全球的、巨大的、分布和共享的信息空间,Web作为一个庞大的资源库,给人们的学习、生活和工作带来了巨大的便利。然而面对Web上的海量信息,人们却陷入了“数据丰富,知识贫乏”的尴尬境地。由于目前的Web数据大多以HTML的形式出现,使得应用程序无法直接获取Web上的信息。Web信息抽取技术正是在这一背景下应运而生。本文分析了一些典型的信息抽取系统技术特点,并探讨了在信息化教育中,从学习者的需求出发,抽取个性化的服务信息。本文实现了一个基于文档结构树的个性化信息抽取系统。本系统主要分为两个部分,抽取规则的定义以及抽取规则的执行。在抽取规则的定义阶段,首先将获取的HTML结构的网页进行规范化处理,转换为格式规范、语义清晰的XML文件,生成对应文档的DOM树,然后由用户指定待抽取信息的位置以及对应的目的表的模式,最后根据这些信息生成抽取规则。在抽取规则执行阶段,系统根据用户定义的抽取规则抽取Web数据并将其加载到指定位置的目的表中。