一种基于百度百科的中文领域本体构建方法

来源 :东北大学 | 被引量 : 3次 | 上传用户:yushion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
下一代互联网被称为语义Web,本体位于其核心层次。因此本体构建方法的研究十分重要。因为本体是整个世界的映射,直接研究本体的构建方法是不可能的,因此基于分治的思想,将本体划分为领域本体,将问题转化为研究领域本体的构建方法。中文因为具有很多和其他语言尤其是印欧语系不同的特征,因此研究最多的基于英语的本体构建方法难以直接用于中文的领域本体构建。中文领域本体构建的方法目前还比较少。首先语料的选择就是个比较大的困难。因此才有很多关于领域概念提取的方法。百度百科在领域概念的确定方面有先天的优势。它是一种基于wiki方式的社群式编辑的百科词典,既具有词典的特性,又兼具wiki的诸多特性。这些特性很多都特别适合于本体的构建。因此,选择百度百科作为语料,可以兼具以半结构化词典语料的优势和wiki这一编辑模式下词条定义可以得到最广泛的认同的优势。本文提出了一种基于百度百科中文的领域本体构建方法。该方法综合了Cyclic Acquisition Process方法、自顶向下和自下而上三种主体方法,采用了以概念为内循环核心,本体为外循环核心的设计,支持更新和完善的循环机制。并在方法中提出了基于百度百科构建本体的三大原则,以及依据三大原则设计的带优先级的根据中文形式化语言特征寻找上位词的方法;根据百度百科的特征对TF IDF相似度计算方法进行了改进,并提出了改进后的算法在本体构建中的几种应用。最后应用依据方法构建的一个实例,试验了“蔷薇科”领域的本体构建,并对实验结果进行了分析。
其他文献
最近的一份报告指出,在过去的五年里面,对信息系统安全的威胁增加了250%,导致了约1000亿美圆的损失,所以网络安全在最近几年会是研究的热点。网络安全中,入侵检测系统作为防
基于内容的图象检索(CBIR:Content-Based Image Retrieval)是当前多媒体技术中的一个研究热点,压缩域图象检索技术又是其中的新发展。基于内容的图象检索借助对图象从低层到
在Internet上,多媒体业务诸如:流媒体、视频会议和视频点播等,正在成为信息传送的重要组成部分。网络技术、多媒体技术和微电子技术的快速发展,为网络应用提供了越来越广阔的
作为新一代IP技术IPV6,必将在未来几年内得到大量应用,包括支持IPV6的主机和互连网设备。这一技术虽然为用户提供了极大的方便性和灵活性,但是对网络管理和维护提出了更高的
本文重点研究分布式GIS中的QoS问题,主要包括从用户的角度研究分布式GIS服务分类和保证QoS的关键技术等。 本文具体研究的内容可以归纳为:提出了分布式GIS中的QoS问题,指出保
Web 服务(Web Services)作为一种能够快速集成应用的技术,代表了分布式计算的最新潮流,具有广阔的应用前景。就目前而言,它仅仅局限于基于同步信息获取的简单应用,而对于以异
  本文从GIS信息系统开发过程中重要的一个步骤——空间数据库的建立和电子矢量地图的制作着手,建立了基于GIS的CRM系统的常用应用模型,包括综合信息适时查询和GIS智能决策支
在当今,越来越多的医学问题依赖于生物医学的发展。在生物医学领域,细胞是研究的基本单位。数字化荧光成像技术和分子级的生物着色技术的不断发展,极大地推动了对细胞内的亚细胞
在软件系统开发的过程中,一个非常重要的工作就是按照面向对象的方法去分析所要解决的问题,也就是要清楚所要解决的问题中有多少实体,每一个实体所具有的属性,各个实体之间的
语义神经网络是一种将符号主义与联结主义两者相结合在一起来实现自然语言理解的新思想方法。它打破了传统的线性理解模式,模拟人脑的语言处理机制,把自然语言的表层语义理解