面向文本的领域概念筛选算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:tom1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语义技术及其应用中,本体学习是一个研究热点,受到国内外众多学者的广泛关注。概念获取作为本体学习的重要一环,其筛选的质量决定了本体建构的效果。以文本作为载体的数据源已成为当前本体学习的主流。因此,本文就限制在文本的领域概念筛选。在本体概念的提取中,需首先获取候选概念,继而从候选概念集合中筛选掉非领域概念,形成领域概念集合。现有的领域概念筛选算法容易遗漏某些重要的具有同义关系或整体部分关系的低频候选概念,还会将大量的高频的与该领域不相关的冗余概念错选为领域概念,影响了概念提取的准确率和召回率。鉴于现有领域概念筛选方法中领域概念筛选存在不准确的缺点,本文提出了一种改进的本体学习中的领域概念筛选算法。该算法利用候选概念上下文的语境信息计算候选概念之间的相似度,根据计算结果的值给出了判断同义词和整体部分关系词的标准,识别出低频的具有同义关系和整体部分关系的词集,并筛选掉部分冗余概念,同时给出了改进公式和领域概念筛选算法,使其能更好地筛选这些低频且很重要的领域词。将本文提出的筛选方法与当前流行的使用范围较广的领域概念筛选方法在同一数据集上进行了对比实验,使用准确率(precision)、召回率(recall)、综合测量值(F-measure)三个指标作为对比指标。从实验结果中看出,改进后的算法对领域中存在的低频同义词、整体-部分关系词、同义且具有整体-部分关系词的筛选效果显著,避免了因在领域中出现的频数较低而被过滤掉,从而使领域概念提取的准确率和召回率都有很大程度的提高。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
自愿性信息披露的技巧主要体现在对披露内容、披露的详细程度及披露时间的把握上。 The techniques of voluntary disclosure are mainly reflected in the content of disc
在金融市场,如何合理地配置资金,使得投资的风险最小化、收益最大化是一个热门的问题,投资组合的效用理论是优化投资组合的一种有效途径.本文从效用函数出发,在已有效用函数
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
Many text classifications depend on statistical term measures to implement document representation. Such document representations ignore the lexical semantic co
LTE系统的核心传输技术是OFDM(正交频分复用)技术。在OFDM系统中,宽带子载波通过快速傅里变换(FFT)被分割为若干频率正交的子载波,每个用户可以分配到多个子载波同时进行数据
模糊系统是模糊逻辑和模糊集合理论最著名的应用之一,它应用模糊逻辑方法处理由模糊性引起的不精确推理,它的核心大多是"if-then"规则所组成的规则库。模糊系统能有效的将专
期刊
本文主要研究了Banach格上O-Dunford-Pettis算子的性质,包括控制性质、格性质、算子与其逆算子的O-Dunford-Pettis性,以及O-Dunford-Pettis算子与其它算子的关系等。   首先
目的研究不同时间、不同采集地的防风挥发油量与防风根际土壤相关性。方法水蒸气蒸馏法提取防风挥发油,检测其成分;根据国家标准规定方法测定根际土壤pH,水解N,速效P、K,全N