论文部分内容阅读
随着Internet技术的发展,WWW上积累了大量数据,成为世界上最大的数据源。但Web信息多以HTML格式发布,缺乏语义信息,造成大量的Web数据不能直接为应用程序直接使用。为了使大量的Web数据能够为以数据为驱动的应用所使用,人们广泛采用了信息抽取技术,现已成为当前研究热点之一。 在以往的工作中,我们实现了基于结构的信息抽取技术,在Web网页显示特征的深入分析基础上,以Xpath、Xquery作为抽取规则,给出了一套抽取规则的生成、优化方案。试验结果表明这套方案所使用的方法具有较高的查准率、查全率。但在该方法中对Web网页结构的几个特殊情况只做了特定地分析,缺乏理论上地系统阐述,对抽取能力的表达也不够充分。 本文仔细研究了基于结构信息抽取方法的典型系统,借鉴非1NF关系数据库的关系模式的平面化/嵌套化操作,引入了DOM的平面化/嵌套化理论,对Web网页结构做了深入分析。给出了三种基本类型的平面化/嵌套化情况:(1)集合对象平面化;(2)元组对象平面化;(3)DOM结构嵌套粒度过大。分析了各种平面化/嵌套化对抽取的影响之后,引入了结构重组规则,针对各种平面化情况采用结构重组规则给出了相应的具体解决方案,提高了系统的抽取能力。结合Web网页结构的上下文环境,对各种结构重组规则的具体解决方法的适应性进行了详细的分析,初步讨论了基于结构的信息抽取技术的抽取能力。规则重构规则中区分节点的方法不局限于基于结构的信息抽取技术,还可以采用其他信息抽取技术的方法,提高了现有信息抽取技术的效率和健壮性,同时为各种信息抽取技术的融合提供了一种思路。 Web Service的出现为数据集成提供一种很好的解决方案,本文将Web Service技术与信息抽取技术相结合,在原型系统中实现了基于Web Service的信息抽取系统。