论文部分内容阅读
本体构造方法的研究有利于本体的广泛应用和推广,尤其对WWW向下一个版本转化具有现实意义。目前,本体构造多侧重在方法过程的研究,如果能够加强对本体数据源内部特征的分析,会进一步减少有效信息丢失、无用数据被采用等问题。本文在详细分析数据源特点的基础上,分别提出文档分解模型,输入输出驱动模型以及两层向量空间模型,并集成神经网络、模糊FCA等多种智能方法,建立本体手工和(半)自动构造方法,并实现一个本体构造工具。主要研究内容和结果如下:(1)本体数据源选取研究。本体数据源选取效果直接影响本体构造的质量,目前本体数据源的研究大多集中在文本数据源的研究。对文本数据源的分析不仅要考虑了术语、概念在文档中的频率及含有术语文档在整个文档中的百分率,而且还要考虑术语在文档中的位置信息、文档标引源的位置特性。本文通过文档分解模型的建立,利用抽象方法,完成对本体数据源的概念性、关系性和预测性等特点的分析。并针对这些特点分别采用改进的VSM方法、基于本体关系距离以及神经网络的方法计算相关权值。同时,本文采用Java+Oracle技术,完成本体数据源选取系统的设计与实现,通过“湿地保护”相关的真实文档验证该方法,得到较好的选取结果。(2)特殊领域本体的手工构造——湿地保护领域本体的构造方法研究。建立“数字化”湿地的目的是实现湿地的知识管理和信息共享,而湿地本体的构造,是达到此目标的基础。本文通过对现有手工构造本体技术分析的基础上,提出构造湿地保护本体的方法——WP-Onto方法,以输入输出驱动模型完成本体数据源的组织,把相关知识进行归类并建立知识集,对概念、关系细化提取,实现本体编码及形式化表示。另外,本文还对湿地保护本体应用进行研究,包括信息共享和知识管理两个部分。(3)利用Web资源完成本体构造方法研究,不仅会缩短本体的构造周期,而且还会扩大本体的应用范围。但基于Web的数据提取、知识获取比较困难,与实际应用相比还有一定的距离。本文分析基于Web本体构造数据源的动态、海量、异质、变化、开放性等特点,本体构造的基础问题——形式化表示方法,总结本体构造的关键技术及技术难点。设计一个基于Web本体构造系统架构,为实现基于Web领域本体构造方法提供一个框架性的思路。(4)本体学习工具实现研究。为构造出一个效率、准确率较高的本体学习工具,本文采用面向对象思想的分析方法,把传统的单层文本向量空间模型改进为两层向量空间模型(Double Vector Space Model,简称D-VSM),该模型不仅具有属性特性,而且还具有很强的关系特性。在此模型的基础上,引入FFCA(Fuzzy Formal Concept Analysis模糊形式概念分析)本体学习技术。该技术充分考虑D-VSM模型中数据分布特点,较好地解决本体学习通用性、本体关系获取等问题。基于上述方法实现一个本体学习工具,为本体的(半)自动构造提供有力的支持。综上,本文给出本体构造几个关键问题的研究:在文档分解模型基础上,建立一个本体数据源选取系统;在输入输出驱动模型的基础上,提出湿地保护领域WP-Onto本体手工构造方法;在两层向量空间模型的基础上,分析Web数据特点,并结合模糊FCA方法,实现一个本体学习工具。以本体数据源选取为基础,在本体手工构造和(半)自动构造两个方面进行有效的研究,取得了较好的结果。