论文部分内容阅读
领域本体作为一种能在语义和知识层次上描述信息的概念模型,在智能信息检索、知识获取、自然语言理解和Web信息处理等方面发挥着重要的作用。然而由于领域本体构建原则的不确定性、构建方法的不一致性、构建工具的多样性和构建人员的领域知识水平差异性等因素,导致目前虽然领域本体数量众多,但是质量却参差不齐。同时随着领域新知识和新应用不断涌现,为了能使领域本体及时覆盖领域新知识,领域本体也在不断进行学习和进化。如何对领域本体内容进行有效的质量评价是本体应用中非常重要和紧迫的课题。领域本体覆盖度是领域本体内容评价的重要评价指标之一,分为概念覆盖度和关系覆盖度,它反映本体中包含某个领域中的概念和关系的全面程度,用于判定本体与某个领域的相关性。概念和关系的覆盖度评价结果可以为领域本体学习和进化需求的获取提供可靠的依据,可以为用户选择和重用领域本体提供有益的参考。基于黄金标准的评价方法进行覆盖度度量是一种理想的有效手段,然而绝对的黄金标准并不存在,本文认为从大规模领域语料库中抽取领域概念集和领域关系集作为相对黄金标准是一种现实可行的方法,因此采用获取相对黄金标准的思路进行领域本体覆盖度评价相关技术研究。主要有以下工作:(1)分析了领域本体内容评价指标与度量方法,从广度(Breadth)、深度(Depth)、横向(Horizon)、纵向(Longitude)四个视角对本体内容评价指标进行分类和融合,构建一种领域本体内容评价体系框架BDHL,设计可以用户个性化定制的可扩展评价指标树结构,分析结果表明覆盖度评价指标是进行其他指标评价的基础,并在此基础上给出领域本体内容评价过程模型。(2)在概念覆盖度评价中,作为黄金标准的领域概念集的完备性非常重要,但多重复合概念识别问题制约覆盖度的度量准确性。本文提出一种基于混合判定模型的复合概念抽取方法,首先对语料库中的领域文本进行分词处理,为每个词条添加词条标签,并对词条集进行噪音词消除和同义词合并处理,然后通过加权词频、位置亲和度和位置匹配度计算,判定和筛选可组合成复合概念的原子词条,最后通过设置不同复合深度值,实现多重复合概念抽取。以软件工程领域的文档集构建语料库进行抽取实验,对比实验结果表明了该方法的有效性。(3)提出一种基于统计和依存语法分析相结合的领域关系实例抽取方法,在领域语料库标注和领域概念集较完备的前提下,可有效判定领域概念之间存在关系,并获得具体关系实例三元组。首先通过位置亲和度、支持度和置信度判定存在关系的领域概念对,通过统计决策树模型判定句子的谓语中心词,然后根据依存关系规则库,对句子进行句法分析,得到该句子的依存关系树,判断领域概念对是否受谓语中心词支配,最后根据领域概念对的依存关系,抽取出满足<主谓宾>结构的领域概念对和谓语中心词,得到领域概念对的关系三元组。同样以软件工程领域的语料库和领域概念集为实验对象,验证了本文方法对简单句中关系实例抽取具有较好的召回率和准确率。(4)应用上述研究成果,从软件工程领域语料库中获取领域概念集和关系集,作为相对黄金标准;同时获取软件工程领域中多个本体的本体概念集和本体关系集;设计基于相对黄金标准的领域本体概念覆盖度和关系覆盖度评价算法,得到概念覆盖度和关系覆盖度评价结果,将两方面评价结果用于本体的领域相关性和领域交叉性分析。实验结果表明本文方法能较好地根据覆盖度评价值反映领域本体与领域之间的关系。在领域概念和领域关系抽取中,如何选择领域语料库,如何处理复杂语境下的抽取问题,还需要进一步的研究。在领域本体覆盖度评价的基础上,对本体进行领域相关性排序和领域交叉性分析,开展本体内容质量其他相关指标,如内聚度、耦合度等方面的评价方法研究与应用,也将在下一步进行深入研究。