论文部分内容阅读
Web上有海量的数据信息,怎样对这些数据进行综合复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。对于Web的数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是半结构化。为何说是半结构化的数据呢?Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而形成一种非完全结构化的数据,这也被称之为半结构化数据。所以,半结构化是Web上数据的最大特点。
针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。因此面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。
本文首先构造了一个网页搜索引擎,这是信息抽取的第一个环节。构造搜索引擎又分为两方面。第一,正确的了解用户的意图。这就涉及到对用户输入信息的分析,即中文分词。本文分析比较了几种传统的分词算法,并实现了一种改进后的中文分词技术,提高了分词的效率;第二,根据用户的意图搜索符合条件的网页。本文根据WebSpider的原理,构造了一个网络蜘蛛程序,成功的获取了需要的网页。
获取了信息源之后,进而搭建一个网页信息的抽取平台。为能保证抽取出的信息更加准确及可用性强,系统还提供了一个帮助构造抽取模式的用户图形界面,以交互的方式获取用户需要信息的路径,并基于此构造XSLT文件,最终完成信息抽取。
最后,本文还对几种不同类型的抽取规则的健壮性进行了分析比较并给出了结论。