基于文本的本体学习技术研究

来源 :科技资讯 | 被引量 : 0次 | 上传用户:cool_bl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:本体学习的数据源有多种多样,其中基于文本的本体学习是目前本体学习中研究的重点,该文从本体学习分类、本体学习内容、本体学习过程以及目前本体学习研究中存在的主要问题等本体学习技术进行了研究。本体越来越多的应用在知识工程、人工智能等多个领域。目前本体采用的最广泛的定义为“本体是共享概念模型的形式化规范说明”。本体是描述某个领域甚至更广范围内的概念及概念之间的关系,使得这些概念和关系在共享的范围内具有大家认可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。目前本体的构建基本都是基于手工方式完成的,手工构建方式需要依靠专家意见和计算机技术,虽然可以保证质量,但费时费力,严重影响了本体的应用推广。本体学习是解决本体构建的重要手段,它综合使用统计学、机器学习等技术自动或半自动地构建本体。
  关键词:本体学习分类  本体学习内容  本体学习过程
  中图分类号:TPl81    文献标识码:A 文章编号:1672-3791(2019)10(a)-0255-02
  1  本体学习分类
  因本体学习中需要处理的数据源结构的不同,本体学习技术分为以下三大类。
  1.1 基于结构化数据的本体学习技术
  面向结构化数据的本体学习主要针对一些结构规范、关联明确的数据。主要包括关系数据库等其他类型数据库中的数据。
  1.2 基于非结构化数据的本体学习技术
  非结构化数据没有固定结构,主要包括纯文本、图形、音视频等。其中文本数据是大量存在并且非常重要的一类非结构化数据。由于文本数据含有丰富的语义信息,需要通过统计以及机器学习等方向进行本体学习。
  1.3 基于半结构化数据的本体学习技术
  半结构化数据是指缺乏严格结构的数据。如Web中的HTML数据和XML数据。对这些数据可以综合使用结构化数据和非结构化数据的处理方法进行处理。
  2  本体学习内容
  Alexander Maedche等[1]将本体的结构描述为一个五元组:O:={C,R,Hc,rel,Ao},其中C表示概念集合、R表示关系集合、Hc表示概念间的分类关系,rel表示非分类关系,Ao表示本体的公理集合。因此,概念的获取、概念关系的获取以及公理是本体学习研究的重点内容。
  2.1 概念的抽取
  从纯文本中抽取概念是利用本体学习技术进行构建本体的关键。
  2.1.1 基于语言学方法
  通过分析概念、术语的词法规则,构建相关匹配模板,然后利用匹配模板进行概念抽取。這种方法的主要依据是:领域概念具有特殊的语法模板或语法结构,而且这是和特定语言相关联的。
  2.1.2 基于统计的方法
  利用特定领域概念出现的频率来抽取领域概念。这种方法的依据是:普通词汇和领域词汇之间在统计特征上是有很大差别的,这种方法可以识别领域概念。
  2.1.3 混合方法
  混合方法是将语言学和统计学的方法结合起来,利用两种方法的优点来进行相关概念的抽取。
  根据目前的研究状况,国内外研究中只要是基于统计的方法。
  2.2 概念关系的抽取
  杜小勇等人[2]在获取本体中概念之间关系时主要考虑两种类型的关系: 分类关系和非分类关系。其中分类关系是构成本体的基本骨架,使得本体具有明确的层次结构,目前常用的分类关系包含以下几种。
  (1)基于模板的方法。
  基于模板的方法是对相关领域文档进行分析,总结出那些频繁出现的模式作为规则,对文本中的词序列与某个模式进行匹配判断,若含有则识别出相应的关系。采用基于规则的方法优点是:可将符合规则的语言模式准确地匹配出来;缺点是:由于语言的复杂性及多样性,匹配的准确度相对较低。
  (2)概念聚类的方法。
  聚类是一种无监督学习,能够将相似的对象归到同一类中。聚类时对概念间的语义距离进行计算,依据数据对象的相似性进行分类。目前主要的聚类方法有[3]:层次聚类算法、划分式聚类算法、基于网格和密度的聚类算法等。
  2.3 公理的学习
  当前对公理的学习还比较少,这也是本体学习后续需要重点研究的方向。
  2.3.1 本体学习过程
  图1是本体学习系统框架,在该框架下本体学习的主要步骤。
  (1)预处理模块:将各种数据源进行分词、词性标注等预处理。
  (2)学习模块:利用统计、机器学习等算法进行本体学习。
  (3)将学习得到的本体呈现给用户。
  (4)用户采用评价、编辑模块对本体学习结果进行判断与评价。
  (5)将学习完成的本体添加到本体库中。
  2.3.2 本体学习研究中存在的问题
  目前本体学习主要面向的是领域本体,可扩展性不强,很难直接应用于其他领域,但对于一般通用本体的自动、半自动构建研究不多。目前概念关系的抽取主要是分类关系,对于非分类关系的抽取研究不够深入,并且现有的方法主要依靠浅层语言处理,很难发现概念之间深层次的关系[4]。目前本体学习工具的功能都比较简单,由于中文的复杂性,比如中文分词问题、一词多性、一词多义等,目前针对中文的本体学习工具很少,并且基本都处于原型阶段。目前对本体学习效果的评价标准还比较缺乏,如何对本体学习结果进行评价,是后续需要重点研究的方向。
  参考文献
  [1] Maedche A,Staab S.Ontology Learning for the Semantic Web[A].In:Proceedings of the IEEE Intelligent Systems[C].2001.
  [2] 杜小勇,李曼,王珊,等.本体学习研究综述[J].软件学报,2006,17(9):1837-1847.
  [3] 孙吉贵,刘杰,赵连宇,等.聚类算法研究[J].软件学报,2008,19(1):48-61.
  [4] 刘柏嵩,高济.面向知识网格的本体学习研究[J].计算机工程与应用,2005(20):1-5.
  [5] Studer R,Benjamins V R,Fensel D.Knowledge engineering,PrineiPlesAnd methods[J].Data and Knowledge Engineering,1998(25):161-197.
其他文献
保护地可人为控制棚室内的气候环境,提高土地利用效率。但其常年处于半封闭状态,气温高、湿度大、蒸发量大、复种指数高、化肥与农药施用量大,导致土壤养分失调、重金属累积
分析了电网继电保护定值整定和校核工作的特点,介绍了定值校核的相关方法,解决了电网结构或外部等值发生变化后查看已有定值适应性的问题,并利用软件技术将其实现.该系统在江
针对目前市场上对电子产品的可靠性要求越来越高的趋势,提出了采用优秀的电路板布局和良好的软件设计来提高通信接口可靠性的方法.首先介绍了提高串行通信系统可靠性的通用系
联合站是油气集输系统中最关键的生产单元,拥有大量的生产设备,承担着油气水分离,原油脱水稳定及外输等任务,是油田主要耗能环节之一。影响联合站能耗的因素具有耦合性、非线
改革开放 2 0年多年来 ,伴随中国社会的迅速发展 ,马克思主义哲学的教学和研究在不断向前迈进。实践的发展特别是科学进步 ,既给马克思主义哲学的教学和研究提出了一系列新的
摘要:  插图是小学语文教科书不可或缺的部分,对于引领学生成长具有重要的教育意义。通过对新版部编小学低年级语文教科书中插图人物的研究发现,新版部编小学低年级语文教科书插图人物存在着职业分布过于集中、活动类型主要属于传统形态、性别比例依然失衡以及性别刻板印象等问题。为此,本文提出了相应的调整和改进建议。  关键词:新版部编教科书插图人物低年级语文  教科书是课程实施的最重要的载体。作为教科书重要组成
右旋糖酐是一种聚D-葡萄糖,其葡萄糖残基以α-1,6-糖苷键连接成主链,支链则由葡萄糖残基或葡萄糖链(简单或复杂的)以α-1,2-、α-1,3-或α-1,4-糖苷键连接在主链上,主要用途包
目前,中国的经济体制改革和政治体制改革已经到了过大关的关键阶段,而国企改革作为中国经济改革的核心内容之一也已进入了摸着石头过河的深水区。
摘要:在中考之下,九年级的学习在中学阶段地位不言而喻,九年级学生的学习状况也备受关注。本文从九年级政治复习阶段消极课堂现象及原因入手,改变消极课堂现状,发挥九年级政治课学科功能和育人功能。  关键词:沉默课堂 学习态度 学习效能感     在中考的指挥棒下,九年级的课堂教学相比较七、八年级而言往往更受学校的关注,但是受升学压力的影响,无论老师还是学生在复习课上都往往感到课堂变得愈加沉闷,学生的主动
全国制的计算机等级考试是属于一种普遍性的等级认证考试,并且通过报名率和通过率的情况来进行分析,根据一些潜在因素来对计算机等级考试数据进行思考,为继续教育认证考试提