论文部分内容阅读
随着近几年Internet的飞速发展,虽然Web已经发展成为了一个巨大的分布和共享信息资源的平台,但是如何从Web中快速和有效地获取信息仍然是困扰着Web用户的一个问题。在这样的背景下,出现了Web信息抽取技术,Web信息抽取技术是从信息抽取技术中衍生出来的,它继承和发展了信息抽取领域的一些关键技术,同时,XML技术出现后,迅速成为了互联网信息表示的标准。本文就是把传统的信息抽取技术同XML技术结合起来,在Web信息抽取过程中起到了事半功倍的效果。本文首先对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的树型结构抽取规则,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去。Web信息抽取出来,用户如果不能够随心所欲地加以利用,那么将是毫无价值的。所以,抽取信息的数据集也是Web信息抽取过程当中不可忽视的一个子过程。那么,如何把抽取出来的数据准确地映射到目标数据库中也是本文需要研究的范畴。同时,为了方便用户对抽取出的数据进行二次利用,本文还提出了基于XML的Web查询模式。总之,Web信息抽取技术结合XML的存储和访问技术,最大限度地实现了Web信息的再利用。本文的创新之处在于作者提出了一个信息抽取原型系统的设计以及实现方案,该系统采用了多策略的基于XML的抽取方法来满足各个不同领域的抽取需求。在文章的最后,作者基于江西省新华书店的实例对系统的各项抽取系数进行了评估,基本达到了预期的效果。