论文部分内容阅读
本体在知识管理、语义检索、人工智能、语义Web等相关领域的广泛应用,使得本体学习,即采用机器学习方法(半)自动构建本体,得到了深入研究。对于不同的本体对象,本体学习可以分成概念学习与关系学习。其中,关系学习是指采用计算机(半)自动地快速地发现概念间关系。在这个信息快速发展的时代,新的概念层见叠出,也改变了概念之间的关系。针对自动获得概念之间的关系的困难,本文提出一种基于百科词条的概念聚类方法,支持自动构建领域本体。本文主要研究内容:(1)研究基于百科词条的概念向量模型。基于已有的领域概念集合,分别获取每个概念的百科词条文本并进行语料预处理,然后对每一领域概念建表并存储词语和词频,为之后概念聚类中计算概念向量之间的距离需要扩展词语时提供数据依据。依据左信息熵和右信息熵,过滤不独立词语,获得领域特征词。基于领域的特征词建立领域的概念向量模型,其中,向量模型中的每个概念由领域特征词在概念中的词频表示。将整个语料作为共现窗口,可以提高概念聚类算法的准确率。(2)研究基于距离判别的概念聚类方法。基于概念向量模型,即采用马氏距离计算概念间距离,采用重心距离计算概念到类中心的距离,每次迭代都需要改变所属的类别,经过多次迭代后直至聚类结果不再改变。所得到的概念类别中的概念间视为存在语义关系,提交领域专家人工修正。对电子商务领域、知识管理领域和管理信息系统领域三个领域的概念集合,分别采用本文方法和k-means方法进行概念聚类试验进行性能分析,结果表明,在聚类匹配度、准确率、F-Score与度量聚类结果相似度RI方面,本文的概念聚类方法均比k-means聚类方法高。(3)概念聚类方法应用研究。设计实现了一个基于百科词条的概念聚类方法实验系统,展示了实验步骤和结果界面,证实了本文提出的概念聚类方法的有效性与可行性。总体上,跟经典的聚类方法作比较,本文中提出的概念聚类方法有更好而且更加稳定的概念聚类结果。