论文部分内容阅读
面对海量的半结构化信息,如何从中发现有价值的信息或知识,对内容信息实现有效的抽取和包装,并通过数据仓库进行管理,已成为一项非常艰巨的任务,是实现基于内容的数据管理和数据仓库实用化的重要前提。面向半结构化文档的智能处理正是应这种迫切需求而产生并迅速发展起来的研究领域。虽然针对Web网页的信息抽取研究已经开展了一段时间,但面向多种数据源的通用多目标信息抽取的研究还较少;此外,面对结构松散的多实例化信息源,通过训练样本归纳得到的抽取和包装规则并不完全适用。因此,需要对现有半结构化信息挖掘规则的定义方式和实现方式进行改造。
本文的主要工作是研究半结构化数据的形式化描述方法,研究并建立同时适用于结构严密和结构松散多实例化信息源的半结构化数据处理模型。本文的研究工作从以下几个方面进行:
本文首先对半结构文档中包含的信息进行了系统分析,提出由逻辑视图、语义视图和布局/表示视图构成的统一的半结构化文档三层视图模型,分别从逻辑结构、基于语义和内容的表示,以及数据显示方式等三个不同的角度对半结构化文档进行描述。为实现半结构化文档的多视图表示,本文在对国内外相关研究及成果进行系统分析的基础上,提出了一个通用的半结构化信息智能处理模型,模型将半结构化数据的知识发现过程通过半结构化文档过滤、不同视图层次的数据挖掘、文档信息重组和知识可视化等一系列处理系统地集成在一起,实现多目标的半结构化信息处理。
为使智能处理模型具有可伸缩性和自适应性,本文提出多维元数据的数据建模思想和元数据描述语言,通过元数据信息对半结构化信息的抽取、包装逻辑以及其他与半结构化智能处理相关的业务逻辑进行控制,将传统的半结构化信息抽取和包装过程转化为元数据驱动的解释执行过程。
在对数据抽取和包装机制的研究中,本文提出从文档著作角度入手,利用半结构化文档固有的逻辑信息构造文档逻辑视图,并通过逻辑视图实现精确且可定制的语义视图包装机制;同时,提出文档逻辑视图包装与语义视图包装相结合的包装方法,即在利用逻辑视图完成文档语义视图包装的同时,通过语义视图包装过程中获得的知识修正在逻辑视图包装过程中出现的错误。
针对文档信息重组和知识可视化表示,本文着重对支持多类型显示设备的数据表示引擎的设计和实现技术进行研究。
此外,本文还对半结构化文档中经常出现的结构化资源对象(包括列表、标记化表格和非标记化表格)的模式抽取和语义包装机制进行了研究,提出并实现了相应算法。