论文部分内容阅读
在语义技术及其应用中,本体学习是一个研究热点,受到国内外众多学者的广泛关注。概念获取作为本体学习的重要一环,其筛选的质量决定了本体建构的效果。以文本作为载体的数据源已成为当前本体学习的主流。因此,本文就限制在文本的领域概念筛选。在本体概念的提取中,需首先获取候选概念,继而从候选概念集合中筛选掉非领域概念,形成领域概念集合。现有的领域概念筛选算法容易遗漏某些重要的具有同义关系或整体部分关系的低频候选概念,还会将大量的高频的与该领域不相关的冗余概念错选为领域概念,影响了概念提取的准确率和召回率。鉴于现有领域概念筛选方法中领域概念筛选存在不准确的缺点,本文提出了一种改进的本体学习中的领域概念筛选算法。该算法利用候选概念上下文的语境信息计算候选概念之间的相似度,根据计算结果的值给出了判断同义词和整体部分关系词的标准,识别出低频的具有同义关系和整体部分关系的词集,并筛选掉部分冗余概念,同时给出了改进公式和领域概念筛选算法,使其能更好地筛选这些低频且很重要的领域词。将本文提出的筛选方法与当前流行的使用范围较广的领域概念筛选方法在同一数据集上进行了对比实验,使用准确率(precision)、召回率(recall)、综合测量值(F-measure)三个指标作为对比指标。从实验结果中看出,改进后的算法对领域中存在的低频同义词、整体-部分关系词、同义且具有整体-部分关系词的筛选效果显著,避免了因在领域中出现的频数较低而被过滤掉,从而使领域概念提取的准确率和召回率都有很大程度的提高。