论文部分内容阅读
摘 要:为了完善问答系统、搜索平台等信息检索系统对本体的应用需求,提出了一种基于网站结构的领域本体学习方法,该方法对网站结构进行分析,通过挖掘网站结构中所隐藏的知识进行本体学习,实践证明该方法可以更快、更准确地获取特定领域中的概念、概念层次以及概念间的非分类关系,最终帮助构建本体。
关键词:本体学习;网站结构;非分类关系
中图分类号:TP181
本体是目前知识表示和知识推理的一个重要研究课题,已在众多领域得到应用。本体构建是本体应用的基础,目前已经有许多本体构建工具(如0ntoligua、WebOnto、Protégé、OntoEdit等),虽然这些工具提供了友好的图形界面,为本体构建提供了方便,但总的来说仍然是一种手工构建的方式。为了降低本体建立的开销,自动或者半自动地构建本体成为了本体研究领域的一个重要方向——本体学习(Ontology Learning)。
本体学习是利用自然语言处理、机器学习等技术,自動或半自动地从不同结构的数据源中获取领域中的概念、关系和公理[1]。国内外已有许多专家学者展开了对它的研究,且出现了一些本体学习工具:如OntoLearn[2]、OntoBuilder、Text-To-Onto、Hasti。本文主要研究这种基于网站结构的领域本体学习方法。
1 本体学习
本体学习可以分为三个部分:本体学习的数据源、本体学习的方法、本体的学习对象。根据数据源的结构化程度将本体学习的数据源分为结构化数据、非结构化数据和半结构化数据。针对不同的数据源应采用不一样的学习技术。本体学习对象即利用本体学习方法从数据源中学到的对象,主要包括概念、概念间关系以及公理。通常又将概念间的关系分为分类关系与非分类关系,分类关系即概念层次关系[1]。目前大部分本体学习的方法主要有三个步骤:(1)获取领域中概念;(2)获取概念的分类关系,即得到概念层次结构;(3)获取概念间的非分类关系。
2 基于网站结构的本体学习方法
已有的基于Web的本体学习方法大都以网页中的文本作为学习的数据源,其中一种思路是利用自然语言处理、统计分析、模式匹配等技术从文本中获取概念、关系,另一种思路则是利用形式概念分析技术,将网页中的文本看作形式背景,利用形式概念分析技术获取领域的概念及概念的层次关系。事实上,网站作为一种特殊的语料库,相比于百科全书等静态知识,它不仅有文本描述,还具有一定的结构,在网站的结构中已经隐含了许多领域知识,不需要十分复杂的技术和过程就可以提取这些知识,从而可以帮助更快地构建本体。
2.1 总体架构。基于网站结构的本体学习方法的框架包含如下几个步骤:首先分析某特定领域的多个网站的结构,分别得到网站的层次结构图,该图中包含了领域的基本术语及层次关系,对网站层次结构图中的术语进行修剪、合并,得到领域中的概念,形成领域的轻量级本体;然后分析网站层次结构最底层的对象(实例)页面的结构,得到概念的数值属性;接下来分析对象(实例)页面的内容,确定拥有关系的概念对,并给这些概念对打上语义标签。最后领域的概念、概念的层次关系、概念的非分类关系构建了最终的领域本体。
2.2 构建轻量级本体(Lightweight Ontologies)。通过观察、总结众多的特定领域网站(如汽车、手机、旅游),笔者发现,大多数网站都拥有像地图一样的结构,这种结构按层次从上到下,引导用户从主页逐步浏览网站的各个页面,本文将这种结构称为网站的层次结构。这种层次结构是开发者使用分类学(Taxonomy)方法将领域信息进行层次划分,每层确定一个主题而得到的。在知识分类中,本体与分类学(Taxonomy)本来就具有相通性,所以以分类学为基础的网站层次结构实际上已经拥有了领域本体中的基本概念和概念层次知识,所以可以利用网站的层次结构来构建领域的轻量级本体。以“太平洋汽车网”为例,该网站的层次结构如图1所示,由此层次结构而形成的汽车商务领域的轻量级本体如图2所示:
2.3 获取数值属性。在语料库里属性一般用来描述某一对象(实例)的特性,通过分析网站结构,对象(实例)页面已经分离出来,所以利用网站的层次结构可以迅速地找到实例对象(实例),为获取概念的属性提供了方便。数值属性是描述对象与数值之间的关系,这类知识在网页中较容易被发现。通过分析网站中网页结构,数值属性在网页中多以某个实例的参数表的形式体现,如在“太平洋汽车网”中,对象“腾翼C30 1.5L MT标准型”的发动机、底盘、外观等参数均以参数表的形式体现在网页上,这些参数即“汽车车型”这个概念的数值属性,所以通过在对象(实例)页面中搜索具有表格结构特点的网页再进行分析可以快速找到某个概念的数值属性。
2.4 获取非分类关系(对象属性)。对象属性是用来描述两个对象之间的关系,从第2节可知对象属性就是概念间的非分类关系,常见的非分类关系如“部分与整体关系”、“上下位关系”、“等价关系”等。概念间非分类关系的获取一直是是本体学习的难点,也是研究的重点。国内外已有对非分类关系学习的相关研究,但总的来说目前该方向还处于探索阶段。通过总结,概念间非分类关系的学习可以定义为一个四元组(C,K,A,R),其中C是领域中概念的集合,K是语料库、知识源,A是非分类关系学习算法,R是通过算法得到的非分类关系结果集,R={(a,b)|a C,b C且满足has_relation(a,c)}。
3 实验
为了验证本文方法的有效性,本文以“太平洋汽车网”、“汽车之家”、“易车网”等网站作为本体学习的数据源。通过网站的层次结构分析获得“汽车商务领域”的轻量级本体,该本体含有“汽车商务领域”的36个概念;通过对网站对象页面的结构分析,获得了该领域127个数值属性;使用本文的非分类关系获取方法获得28个概念间的非分类关系。最后笔者将构建好的“汽车商务领域本体”应用到了“汽车商务领域问答系统”当中,该系统可以很好回答用户对“汽车商务领域”的自然语言提问。
4 结束语
本文提出了一种基于网站结构的本体学习方法,利用网站结构逐步从网站中挖掘本体的概念、概念层次、非分类关系。此方法实用性较强,但主要针对一些主题比较鲜明的网站,不具有通用性,且在本体学习的过程中,需要知识工程师的辅助才能完成最终本体的生成,今后的工作要进一步提高本体学习的自动化程度。
参考文献:
[1]杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006(09):1838-1839.
[2]Navigli R,Velardi P,Gangemi A.Ontology learning and it s application to automated terminology translation[J].IEEE IntelligentSystems,2003(01):22-31.
作者简介:马莉(1985-),女,讲师,硕士,研究方向:问答系统、本体;陈志新(1982-),男,讲师,硕士,研究方向:知识建模。
作者单位:桂林电子科技大学 信息科技学院,广西桂林 541004
基金项目:本文受广西教育厅科研项目——基于旅游问答系统的手机短信平台(项目编号:201106LX189)资助。
关键词:本体学习;网站结构;非分类关系
中图分类号:TP181
本体是目前知识表示和知识推理的一个重要研究课题,已在众多领域得到应用。本体构建是本体应用的基础,目前已经有许多本体构建工具(如0ntoligua、WebOnto、Protégé、OntoEdit等),虽然这些工具提供了友好的图形界面,为本体构建提供了方便,但总的来说仍然是一种手工构建的方式。为了降低本体建立的开销,自动或者半自动地构建本体成为了本体研究领域的一个重要方向——本体学习(Ontology Learning)。
本体学习是利用自然语言处理、机器学习等技术,自動或半自动地从不同结构的数据源中获取领域中的概念、关系和公理[1]。国内外已有许多专家学者展开了对它的研究,且出现了一些本体学习工具:如OntoLearn[2]、OntoBuilder、Text-To-Onto、Hasti。本文主要研究这种基于网站结构的领域本体学习方法。
1 本体学习
本体学习可以分为三个部分:本体学习的数据源、本体学习的方法、本体的学习对象。根据数据源的结构化程度将本体学习的数据源分为结构化数据、非结构化数据和半结构化数据。针对不同的数据源应采用不一样的学习技术。本体学习对象即利用本体学习方法从数据源中学到的对象,主要包括概念、概念间关系以及公理。通常又将概念间的关系分为分类关系与非分类关系,分类关系即概念层次关系[1]。目前大部分本体学习的方法主要有三个步骤:(1)获取领域中概念;(2)获取概念的分类关系,即得到概念层次结构;(3)获取概念间的非分类关系。
2 基于网站结构的本体学习方法
已有的基于Web的本体学习方法大都以网页中的文本作为学习的数据源,其中一种思路是利用自然语言处理、统计分析、模式匹配等技术从文本中获取概念、关系,另一种思路则是利用形式概念分析技术,将网页中的文本看作形式背景,利用形式概念分析技术获取领域的概念及概念的层次关系。事实上,网站作为一种特殊的语料库,相比于百科全书等静态知识,它不仅有文本描述,还具有一定的结构,在网站的结构中已经隐含了许多领域知识,不需要十分复杂的技术和过程就可以提取这些知识,从而可以帮助更快地构建本体。
2.1 总体架构。基于网站结构的本体学习方法的框架包含如下几个步骤:首先分析某特定领域的多个网站的结构,分别得到网站的层次结构图,该图中包含了领域的基本术语及层次关系,对网站层次结构图中的术语进行修剪、合并,得到领域中的概念,形成领域的轻量级本体;然后分析网站层次结构最底层的对象(实例)页面的结构,得到概念的数值属性;接下来分析对象(实例)页面的内容,确定拥有关系的概念对,并给这些概念对打上语义标签。最后领域的概念、概念的层次关系、概念的非分类关系构建了最终的领域本体。
2.2 构建轻量级本体(Lightweight Ontologies)。通过观察、总结众多的特定领域网站(如汽车、手机、旅游),笔者发现,大多数网站都拥有像地图一样的结构,这种结构按层次从上到下,引导用户从主页逐步浏览网站的各个页面,本文将这种结构称为网站的层次结构。这种层次结构是开发者使用分类学(Taxonomy)方法将领域信息进行层次划分,每层确定一个主题而得到的。在知识分类中,本体与分类学(Taxonomy)本来就具有相通性,所以以分类学为基础的网站层次结构实际上已经拥有了领域本体中的基本概念和概念层次知识,所以可以利用网站的层次结构来构建领域的轻量级本体。以“太平洋汽车网”为例,该网站的层次结构如图1所示,由此层次结构而形成的汽车商务领域的轻量级本体如图2所示:
2.3 获取数值属性。在语料库里属性一般用来描述某一对象(实例)的特性,通过分析网站结构,对象(实例)页面已经分离出来,所以利用网站的层次结构可以迅速地找到实例对象(实例),为获取概念的属性提供了方便。数值属性是描述对象与数值之间的关系,这类知识在网页中较容易被发现。通过分析网站中网页结构,数值属性在网页中多以某个实例的参数表的形式体现,如在“太平洋汽车网”中,对象“腾翼C30 1.5L MT标准型”的发动机、底盘、外观等参数均以参数表的形式体现在网页上,这些参数即“汽车车型”这个概念的数值属性,所以通过在对象(实例)页面中搜索具有表格结构特点的网页再进行分析可以快速找到某个概念的数值属性。
2.4 获取非分类关系(对象属性)。对象属性是用来描述两个对象之间的关系,从第2节可知对象属性就是概念间的非分类关系,常见的非分类关系如“部分与整体关系”、“上下位关系”、“等价关系”等。概念间非分类关系的获取一直是是本体学习的难点,也是研究的重点。国内外已有对非分类关系学习的相关研究,但总的来说目前该方向还处于探索阶段。通过总结,概念间非分类关系的学习可以定义为一个四元组(C,K,A,R),其中C是领域中概念的集合,K是语料库、知识源,A是非分类关系学习算法,R是通过算法得到的非分类关系结果集,R={(a,b)|a C,b C且满足has_relation(a,c)}。
3 实验
为了验证本文方法的有效性,本文以“太平洋汽车网”、“汽车之家”、“易车网”等网站作为本体学习的数据源。通过网站的层次结构分析获得“汽车商务领域”的轻量级本体,该本体含有“汽车商务领域”的36个概念;通过对网站对象页面的结构分析,获得了该领域127个数值属性;使用本文的非分类关系获取方法获得28个概念间的非分类关系。最后笔者将构建好的“汽车商务领域本体”应用到了“汽车商务领域问答系统”当中,该系统可以很好回答用户对“汽车商务领域”的自然语言提问。
4 结束语
本文提出了一种基于网站结构的本体学习方法,利用网站结构逐步从网站中挖掘本体的概念、概念层次、非分类关系。此方法实用性较强,但主要针对一些主题比较鲜明的网站,不具有通用性,且在本体学习的过程中,需要知识工程师的辅助才能完成最终本体的生成,今后的工作要进一步提高本体学习的自动化程度。
参考文献:
[1]杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006(09):1838-1839.
[2]Navigli R,Velardi P,Gangemi A.Ontology learning and it s application to automated terminology translation[J].IEEE IntelligentSystems,2003(01):22-31.
作者简介:马莉(1985-),女,讲师,硕士,研究方向:问答系统、本体;陈志新(1982-),男,讲师,硕士,研究方向:知识建模。
作者单位:桂林电子科技大学 信息科技学院,广西桂林 541004
基金项目:本文受广西教育厅科研项目——基于旅游问答系统的手机短信平台(项目编号:201106LX189)资助。