论文部分内容阅读
经过数十年的发展,当今互联网不但汇聚了海量信息,而且其流通数据量仍以指数级速度激增。由于计算机无法理解Web上数据的具体内涵,面对海量内容只有通过人工筛选完成查询,难以及时获取有用信息。作为Web3.0时代的标志,语义网在一定程度上解决了上述问题,这种从现有网络扩展而来的新一代互联网,必须依靠海量本体所给出的精确表征实现知识共享。 作为一种能在知识层提供知识共享的概念体系,本体可以提高Web服务的表达与组合能力。当前学术界仍没有公认的本体构造标准,现阶段通常由领域专家根据自身经验及相关知识对信息进行提取、归纳,最终以手工方式构建本体,这种本体构建模式不但费时费力,保持对即有本体的更新必将成为一项耗费巨大的工程。在上述背景下,如何从已有的数据库、网页、文档等信息源中自动或半自动地抽取领域本体,提高本体的构建效率已成为近年来语义网和语义Web服务研究的热点。 本课题针对上述问题,在充分调研目前研究成果的基础上,将本体术语抽取、知识的层次化表征及分布式本体融合相结合,以期实现针对即有数据源的半自动化本体学习。相关具体内容包括: (1)提出了一种适用于半结构化数据的领域本体抽取方法。大量研究表明,尽管常见半结构化数据中的领域本体关键词多以隐式形态存在,但在其体系结构中大都有相应的具体标签进行标记。本论文中以XML文档中格式化标题的标签与HTML文档内列表项标签为抽取标记,对DBLP数据集和研讨会征文网页中的领域关键词进行提取,组成本体术语词库。这种以某一主题为根节点抽取所得的术语关键词库将为后续的领域本体构建打下重要基础。 (2)为确保领域本体精度、提高构建质量,对一些常见的、混淆在关键词中的无关词组进行总结,经归纳整理得到过滤术语词表。以该词表为主体,辅以日期、时间、数字及标点符号等无关项目,对已抽取出的本体术语词库进行过滤。按知识源区分,以RDFS和OWL为描述语言对术语关键词库进行本体结构表征,得到基于相同主题,但分别源于DBLP数据集和研讨会征文页面的领域本体。这种分布式知识源的本体结构,将为构建更加全面而系统的领域本体提供保证。 (3)针对已获取的基于分布式数据源所建立的同主题本体,以DBLP数据集为主体数据源,辅以研讨会征文页面进行本体融合,获取完备度较高的领域本体。在上述合并过程中,本论文对于偏序体系整合与优化方面的细节问题给予深入探讨,从拓扑结构出发,分析术语冗余重复和层次划分矛盾的四种情况,并给出相应本体映射理论和语义描述角度的解决方法。 (4)综合上述研究结果,利用Prefuse工具构建了完备领域本体的可视化信息结构图。通过这种层次化隶属关系的图模型,将所构造出的领域本体架构体系与分支结构向用户和读者进行清晰、明确地展示,体现所构造本体的准确性。