论文部分内容阅读
网络技术的迅猛发展为信息集成技术带来了新的问题和挑战,面对Internet上异质、异构数据的大量涌入,信息集成技术的研究呈现出前所未有的生命力。Web信息集成系统为Web数据管理提供了一种全新的方法,它提供了一个访问Web上多个数据源的、统一的和透明的访问界面。其主要目标是支持对Web上的多个数据源的查询,满足用户的查询需求。本文在对Web信息抽取、集成系统研究的现状和发展趋势进行深入分析的基础上,围绕其中几个关键问题进行了深入的探讨,尤其是针对复杂、海量及非结构化和半结构化文本数据类型的特性,从知识发现内在机理研究的角度出发,形成了Web文本挖掘系统的机构模型、算法、应用系统一体化路线。本文主要的研究成果如下:(一)提出了轻量级包装器算法。由于实际使用中的Web信息集成系统大部分为实时系统,目前广泛使用的WIEN包装器归纳学习算法为学习包装器,用户必须提供若干页的完整标签,即用户必须提供例子页的各个元组的标注,系统的效率和实用性非常低,特别是当搜索引擎返回大量的信息源后,面向信息集成的系统要求包装器必须能够高效率地开展工作。本文基于Web页面信息的存在信息冗余的特点,通过标记的训练子例归纳学习包装器,采用了相同页面的数据子集作为训练实例,将潜在的学习抽取规则转变为少量实例规则的抽取学习问题,以完成信息快速抽取的任务。主要目的是研究基于数据集成目的的自动高效快速构造Web信息源的包装器的归纳学习系统。该理论应用在实际竞争情报信息系统中证明是有效的,而第二章对此问题做了深入的理论证明。(二)提出了快速Web信息源权威值计算方法。该算法利用Web页的链接的有限拓展获得相关主题的例子页面结合,然后直接构造邻接矩阵并由引用次数计算Web页面的权威值,该算法能够在对Web页面进行信息抽取的同时计算得到Web页面权威值,由于设计采用了例子页面查询拓展,对于Web信息集成中区别对待不同质量信息源起到关键的作用。这一算法在保证和PageRank一致的精度下,在相同数据集条件下,平均计算时间仅为PageRank算法的8%。(三)提出了一种面向XML的公共数据模型XCDM该模型针对已有的半结构化数据源模型在表达XML文档时存在的缺陷,将OIM有向图结构与XML语言的相关特性相结合,并补充了四种代数操作。该模型充分考虑了XML语法表达的灵活性,可以为用户提供多级视图。(四)提出了一个基于HowNET构造出的Ontology的信息抽取、集成模型一个基于概念模型的本体提供了再现知识,存储信息,并在特定的上下文中给出表示符的机制。这种机制对引导、结合与解释信息的原有特征以及为高质量的搜索和信息抽取、综合、分析和简化起到了杠杆作用。我们的目标就是利用这种基于概念模型的本体,使得查询、抽取、结构化和综合等信息变得更加有效和准确。Ontology实现Web信息集成本质,在语义层通过HowNET建立共享信息模型,使用Ontology语言对数据源给予形式化表示。针对Internet信息资源的特点和信息检索系统的现状,作者在详细探讨和分析了信息抽取技术的产生和相关技术及其在网络信息检索方面应用的同时实现了一个包含上述理论探讨的为某跨国化工公司实现的企业情报竞争信息系统,该系统基于Ontology的Web信息抽取、集成系统,采用Ontology的概念模型和基于规则的信息抽取系统,将Ontology与模板规则相结合来实现Web网页的信息抽取。目前系统已经作为该公司CRM项目的一个子系统投入正式使用。