本体概念及概念间关系抽取方法研究

来源 :北京信息科技大学 | 被引量 : 17次 | 上传用户:by_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上数据的爆炸式增长,如何将互联网上内容丰富、形式多样的海量数据转化为知识并将其有效地组织和管理成为信息技术的新课题。本体作为其他应用学科发展的基础,它的相关技术如本体概念、本体关系抽取等研究便具有重要的理论意义和实际应用价值。本体概念是本体的基本元素,本体概念的质量对后续本体研究起着至关重要的影响。本体关系主要分为分类关系和非分类关系,分类关系是本体的基本骨架,非分类关系是本体的主要枝干。故本文针对本体概念抽取、本体分类关系抽取以及本体非分类关系抽取三方面开展研究,主要研究工作如下:(1)尽可能多的抽取多字词本体术语,以保证本体构建的质量。分析本体术语的生成方式、内在结构特征以及外在分布特征,提出了一种基于部件扩展的本体术语抽取方法。首先,利用部件的领域聚合性和词性特征,采用领域词频比较的方法抽取部件;然后,考虑术语长度、术语词性构成以及术语内部结合度等因素,设计合理的扩展规则对部件扩展以形成候选术语;最后,利用上下文关联信息、语境信息从候选术语集中筛选出本体术语。该方法在IT领域实验数据集上测试,实验结果准确率为0.835,召回率为0.87,准确率相比baseline方法要高出2.5个百分点。实验结果表明该方法是有效的,对本体学习、本体构建具有积极意义。(2)上下位关系抽取技术可以实现本体概念扩充,它作为本体研究的基础技术,在一定程度上降低了创建和维护本体的成本,对本体技术的发展具有重要意义。以匹配“是一个”模式的句子作为研究对象,提出了一种基于句法分析与规则匹配相结合的上下位关系抽取方法。针对结构复杂的句子中下位概念抽取困难的问题,借助句法分析的结果,给出了下位概念中心词的获取方法;结合中心词位置信息和概念边界信息,设计了合适的下位概念抽取规则。实验结果准确率为0.836,召回率为0.84,证实了方法的有效性。(3)非分类关系抽取研究作为本体学习的主要任务,推动着以本体为基础的相关应用技术的发展。为了提高领域关系抽取的准确率,提出了一种新颖的非监督领域专有关系抽取方法。该方法利用概念间分布上的粘合度和语义相似度信息,抽取具有相关关系的概念对;根据领域关系标签与领域概念在分布上的共振现象,利用动词前后缀信息和语义特征,提出了基于共振原理和聚类思想的领域动词抽取方法;以领域动词作为关系标签,采用关联规则挖掘方法为概念对分配关系标签;关系标签分配时,引入了同义词词林,以降低数据稀疏问题带来的不利影响。实验结果准确率为52.5%,在一定程度上,证明了方法的有效性。
其他文献
短消息服务是移动通信的一项重要增值业务,由于其具有快捷、方便、费用低、存储转发等诸多优点,使该业务的发展极其迅速。随着通信技术的不断发展,服务方和客户方不断提出新的需
随着因特网和通信技术的发展,新业务不断涌现,特别是IP数据业务的迅猛崛起,导致全球信息量呈级数增长,通信业务由传统单一的电话业务转向高速IP数据和多媒体应用为代表的宽带
专家系统是人工智能和知识工程最为活跃的一个分支领域。专家系统中不精确性客观存在,目前已经发展到处理不精确性的模糊专家系统。在传统的模糊专家系统中,采用Fuzzy集来表
随着企业应用集成EAI(Enterprise Application Integrator)越来越受到人们的关注,企业资源统一访问控制正在成为当前访问控制研究领域的热点之一。由于传统的访问控制方法已
Agent技术是近年来备受人们关注的软件开发技术。由于他的众多有用属性如自治性、自主性、自适应性等特性,使得人们对它的研究越来越多。基于Agent的这些技术和理论优势,结合作
典型的非监督学习算法,如主分量分析(PCA)、矢量量化(VQ)、独立分量分析(ICA)、因子分析(FA)等,均可以理解为对原始数据矩阵在一定条件限制下进行分解。本文所研究讨论的非负矩
本文首先简略介绍了分布式计算机控制系统DCS和滑模变结构控制的特点、发展趋势等,从中引出了本课题DCS系统体系结构和主要研究内容,即一种小型DCS控制系统的构建和组成,其中被
近年来,许多新的应用不断产生,其中点对多和多对多的通信应用越来越广泛和重要,如网络视频会议、网络音频/视频广播、股市行情发布、远程教育等,由此容易导致带宽的急剧消耗
语音识别技术是信息技术中人机接口的关键技术,利用单片机灵活的控制功能作为主处理器和DSP芯片强大的数字信号处理功能作为从处理器,论述了一个多功能语音电子电话号码簿系统
由于生物认证相对于其它传统认证方式具有许有优势,因此生物认证越来越受人们重视。人的许多生物特征如指纹、虹膜、视网膜、掌纹、手形、声音等可以用于生物认证,它们都具有