论文部分内容阅读
摘 要:本体学习的数据源有多种多样,其中基于文本的本体学习是目前本体学习中研究的重点,该文从本体学习分类、本体学习内容、本体学习过程以及目前本体学习研究中存在的主要问题等本体学习技术进行了研究。本体越来越多的应用在知识工程、人工智能等多个领域。目前本体采用的最广泛的定义为“本体是共享概念模型的形式化规范说明”。本体是描述某个领域甚至更广范围内的概念及概念之间的关系,使得这些概念和关系在共享的范围内具有大家认可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。目前本体的构建基本都是基于手工方式完成的,手工构建方式需要依靠专家意见和计算机技术,虽然可以保证质量,但费时费力,严重影响了本体的应用推广。本体学习是解决本体构建的重要手段,它综合使用统计学、机器学习等技术自动或半自动地构建本体。
关键词:本体学习分类 本体学习内容 本体学习过程
中图分类号:TPl81 文献标识码:A 文章编号:1672-3791(2019)10(a)-0255-02
1 本体学习分类
因本体学习中需要处理的数据源结构的不同,本体学习技术分为以下三大类。
1.1 基于结构化数据的本体学习技术
面向结构化数据的本体学习主要针对一些结构规范、关联明确的数据。主要包括关系数据库等其他类型数据库中的数据。
1.2 基于非结构化数据的本体学习技术
非结构化数据没有固定结构,主要包括纯文本、图形、音视频等。其中文本数据是大量存在并且非常重要的一类非结构化数据。由于文本数据含有丰富的语义信息,需要通过统计以及机器学习等方向进行本体学习。
1.3 基于半结构化数据的本体学习技术
半结构化数据是指缺乏严格结构的数据。如Web中的HTML数据和XML数据。对这些数据可以综合使用结构化数据和非结构化数据的处理方法进行处理。
2 本体学习内容
Alexander Maedche等[1]将本体的结构描述为一个五元组:O:={C,R,Hc,rel,Ao},其中C表示概念集合、R表示关系集合、Hc表示概念间的分类关系,rel表示非分类关系,Ao表示本体的公理集合。因此,概念的获取、概念关系的获取以及公理是本体学习研究的重点内容。
2.1 概念的抽取
从纯文本中抽取概念是利用本体学习技术进行构建本体的关键。
2.1.1 基于语言学方法
通过分析概念、术语的词法规则,构建相关匹配模板,然后利用匹配模板进行概念抽取。這种方法的主要依据是:领域概念具有特殊的语法模板或语法结构,而且这是和特定语言相关联的。
2.1.2 基于统计的方法
利用特定领域概念出现的频率来抽取领域概念。这种方法的依据是:普通词汇和领域词汇之间在统计特征上是有很大差别的,这种方法可以识别领域概念。
2.1.3 混合方法
混合方法是将语言学和统计学的方法结合起来,利用两种方法的优点来进行相关概念的抽取。
根据目前的研究状况,国内外研究中只要是基于统计的方法。
2.2 概念关系的抽取
杜小勇等人[2]在获取本体中概念之间关系时主要考虑两种类型的关系: 分类关系和非分类关系。其中分类关系是构成本体的基本骨架,使得本体具有明确的层次结构,目前常用的分类关系包含以下几种。
(1)基于模板的方法。
基于模板的方法是对相关领域文档进行分析,总结出那些频繁出现的模式作为规则,对文本中的词序列与某个模式进行匹配判断,若含有则识别出相应的关系。采用基于规则的方法优点是:可将符合规则的语言模式准确地匹配出来;缺点是:由于语言的复杂性及多样性,匹配的准确度相对较低。
(2)概念聚类的方法。
聚类是一种无监督学习,能够将相似的对象归到同一类中。聚类时对概念间的语义距离进行计算,依据数据对象的相似性进行分类。目前主要的聚类方法有[3]:层次聚类算法、划分式聚类算法、基于网格和密度的聚类算法等。
2.3 公理的学习
当前对公理的学习还比较少,这也是本体学习后续需要重点研究的方向。
2.3.1 本体学习过程
图1是本体学习系统框架,在该框架下本体学习的主要步骤。
(1)预处理模块:将各种数据源进行分词、词性标注等预处理。
(2)学习模块:利用统计、机器学习等算法进行本体学习。
(3)将学习得到的本体呈现给用户。
(4)用户采用评价、编辑模块对本体学习结果进行判断与评价。
(5)将学习完成的本体添加到本体库中。
2.3.2 本体学习研究中存在的问题
目前本体学习主要面向的是领域本体,可扩展性不强,很难直接应用于其他领域,但对于一般通用本体的自动、半自动构建研究不多。目前概念关系的抽取主要是分类关系,对于非分类关系的抽取研究不够深入,并且现有的方法主要依靠浅层语言处理,很难发现概念之间深层次的关系[4]。目前本体学习工具的功能都比较简单,由于中文的复杂性,比如中文分词问题、一词多性、一词多义等,目前针对中文的本体学习工具很少,并且基本都处于原型阶段。目前对本体学习效果的评价标准还比较缺乏,如何对本体学习结果进行评价,是后续需要重点研究的方向。
参考文献
[1] Maedche A,Staab S.Ontology Learning for the Semantic Web[A].In:Proceedings of the IEEE Intelligent Systems[C].2001.
[2] 杜小勇,李曼,王珊,等.本体学习研究综述[J].软件学报,2006,17(9):1837-1847.
[3] 孙吉贵,刘杰,赵连宇,等.聚类算法研究[J].软件学报,2008,19(1):48-61.
[4] 刘柏嵩,高济.面向知识网格的本体学习研究[J].计算机工程与应用,2005(20):1-5.
[5] Studer R,Benjamins V R,Fensel D.Knowledge engineering,PrineiPlesAnd methods[J].Data and Knowledge Engineering,1998(25):161-197.
关键词:本体学习分类 本体学习内容 本体学习过程
中图分类号:TPl81 文献标识码:A 文章编号:1672-3791(2019)10(a)-0255-02
1 本体学习分类
因本体学习中需要处理的数据源结构的不同,本体学习技术分为以下三大类。
1.1 基于结构化数据的本体学习技术
面向结构化数据的本体学习主要针对一些结构规范、关联明确的数据。主要包括关系数据库等其他类型数据库中的数据。
1.2 基于非结构化数据的本体学习技术
非结构化数据没有固定结构,主要包括纯文本、图形、音视频等。其中文本数据是大量存在并且非常重要的一类非结构化数据。由于文本数据含有丰富的语义信息,需要通过统计以及机器学习等方向进行本体学习。
1.3 基于半结构化数据的本体学习技术
半结构化数据是指缺乏严格结构的数据。如Web中的HTML数据和XML数据。对这些数据可以综合使用结构化数据和非结构化数据的处理方法进行处理。
2 本体学习内容
Alexander Maedche等[1]将本体的结构描述为一个五元组:O:={C,R,Hc,rel,Ao},其中C表示概念集合、R表示关系集合、Hc表示概念间的分类关系,rel表示非分类关系,Ao表示本体的公理集合。因此,概念的获取、概念关系的获取以及公理是本体学习研究的重点内容。
2.1 概念的抽取
从纯文本中抽取概念是利用本体学习技术进行构建本体的关键。
2.1.1 基于语言学方法
通过分析概念、术语的词法规则,构建相关匹配模板,然后利用匹配模板进行概念抽取。這种方法的主要依据是:领域概念具有特殊的语法模板或语法结构,而且这是和特定语言相关联的。
2.1.2 基于统计的方法
利用特定领域概念出现的频率来抽取领域概念。这种方法的依据是:普通词汇和领域词汇之间在统计特征上是有很大差别的,这种方法可以识别领域概念。
2.1.3 混合方法
混合方法是将语言学和统计学的方法结合起来,利用两种方法的优点来进行相关概念的抽取。
根据目前的研究状况,国内外研究中只要是基于统计的方法。
2.2 概念关系的抽取
杜小勇等人[2]在获取本体中概念之间关系时主要考虑两种类型的关系: 分类关系和非分类关系。其中分类关系是构成本体的基本骨架,使得本体具有明确的层次结构,目前常用的分类关系包含以下几种。
(1)基于模板的方法。
基于模板的方法是对相关领域文档进行分析,总结出那些频繁出现的模式作为规则,对文本中的词序列与某个模式进行匹配判断,若含有则识别出相应的关系。采用基于规则的方法优点是:可将符合规则的语言模式准确地匹配出来;缺点是:由于语言的复杂性及多样性,匹配的准确度相对较低。
(2)概念聚类的方法。
聚类是一种无监督学习,能够将相似的对象归到同一类中。聚类时对概念间的语义距离进行计算,依据数据对象的相似性进行分类。目前主要的聚类方法有[3]:层次聚类算法、划分式聚类算法、基于网格和密度的聚类算法等。
2.3 公理的学习
当前对公理的学习还比较少,这也是本体学习后续需要重点研究的方向。
2.3.1 本体学习过程
图1是本体学习系统框架,在该框架下本体学习的主要步骤。
(1)预处理模块:将各种数据源进行分词、词性标注等预处理。
(2)学习模块:利用统计、机器学习等算法进行本体学习。
(3)将学习得到的本体呈现给用户。
(4)用户采用评价、编辑模块对本体学习结果进行判断与评价。
(5)将学习完成的本体添加到本体库中。
2.3.2 本体学习研究中存在的问题
目前本体学习主要面向的是领域本体,可扩展性不强,很难直接应用于其他领域,但对于一般通用本体的自动、半自动构建研究不多。目前概念关系的抽取主要是分类关系,对于非分类关系的抽取研究不够深入,并且现有的方法主要依靠浅层语言处理,很难发现概念之间深层次的关系[4]。目前本体学习工具的功能都比较简单,由于中文的复杂性,比如中文分词问题、一词多性、一词多义等,目前针对中文的本体学习工具很少,并且基本都处于原型阶段。目前对本体学习效果的评价标准还比较缺乏,如何对本体学习结果进行评价,是后续需要重点研究的方向。
参考文献
[1] Maedche A,Staab S.Ontology Learning for the Semantic Web[A].In:Proceedings of the IEEE Intelligent Systems[C].2001.
[2] 杜小勇,李曼,王珊,等.本体学习研究综述[J].软件学报,2006,17(9):1837-1847.
[3] 孙吉贵,刘杰,赵连宇,等.聚类算法研究[J].软件学报,2008,19(1):48-61.
[4] 刘柏嵩,高济.面向知识网格的本体学习研究[J].计算机工程与应用,2005(20):1-5.
[5] Studer R,Benjamins V R,Fensel D.Knowledge engineering,PrineiPlesAnd methods[J].Data and Knowledge Engineering,1998(25):161-197.