论文部分内容阅读
摘要:本文提出了对于文章,先进行语法语义分析,从而构建本体模型的提取方法,以及对知识对象本体模型的建立和展示。本文以网络知识性文章为例,重点描述针对文章领域的知识对象模型构建过程以及其中用到的主要技术和方法。这种技术方法,直接解决了各种通用本体构建方法对该领域内特殊本体支持不力的问题,并且以现成的网络资源为依托,直接应用于教学设计。并对未来的研究给出了方向。
关键词:文章;课题研究;模型构建
中图分类号:G642 文献标识码:A文章编号:1007-9599 (2011) 20-0000-01
Some Ideas to Carry Out Knowledge Ontology Model Automatic Construction Method Research
Huang Jing,Fei Hongxiao
(School of Software,Central South University,Changsha410075,China)
Abstract:This paper presents the articles,the first for semantic analysis,in order to build ontology model extraction methods,and object ontology model for knowledge creation and display.This informative article to the network,for example,focus on areas of knowledge described in the article for the object model building process,and which the main techniques and methods used.This technical approach that directly address a variety of common ontology construction method a special body within the field problems and inadequate support,and the existing network resources as the basis,directly applied to instructional design.And future research directions are given.
Keywords:Article;Research;Model building
一、课题来源
众所周知,互联网络的快速普及,为学习者提供了丰富的文章素材。但是如何使用好这些文章素材并不容易,如何给出一个明确的学习目标,从众多的学习素材中找出相关的素材,并且按照科学的顺序展现在学习者面前,使得学习者完成该学习目标,是非常难实现的。目前,生成、存储、检索和组织这些素材的工作基本上还是由人来手工完成。虽然目前已经有了一些关于文章素材的元数据标准,但是要想使用必须具备相关领域的知识才行,并且当前有好几种这方面的元数据格式,其操作完全不同,甚至大部分的智能文章理解系统由于缺少学习素材模型不支持开发学习素材。
进入到21世纪,日新月异的互联网发展。让越来越多的人参与到互联网中以获得便利的信息发布方式和渠道,从而也使得互联网中的信息数量以呈现出几何级数增长的趋势告知世人信息时代的蓬勃。大量文本、富文本信息无疑丰富了人们的网络生活。但同时,如此大量文本信息又给用户在寻找和关注重点信息时带来了困扰。电子文档的出现解决了人们对于信息的需求,毕竟纸质书籍昂贵的定价并不能让所有人都能拥有。另一方面,人们在获取电子文档的同时,也越来越希望能得到准确,规范,更适合自己的信息。为了满足人们这种需求,网络中也出现了相应的服务和应用,例如电子书软件的出现,以及相關网站的一些基本介绍;这些从一定程度上解决了上述需求,但还是不能使满足用户的具体需求,比如,如何去接受和理解如此大量的电子文本信息。当人们希望有更好的方法去学习,往往会显得比较困难。
知识本体(Ontology)模型的自动构建正是为了满足互联网用户的上述需求。鉴于当前网络教育资源共享性和可用性差的现状,要降低重复建设所带来的高额成本,避免浪费资源,需要成型更好的重用机制和知识共享。重用和的知识共享关键在对于所共享信息的含义共享者要形成一个一致共同的理解,才能实现在语义层次信息的互操作,从而实现基于知识、更高层的应用智能。语义网(Semantic Web)运用了本体的思想;本体是一种可以有效表现语义和概念结构层次的模型,提供对领域知识的共同理解,确定领域内共同认可的词汇,无论是应用系统还是人之间都可以进行语义上的通讯和理解。也即是说,本体让不同的开发工具和应用平台的之间能够进行共享、重用和通信,而新知识系统能够有效的利用现有的知识系统,可不必“重新设计”,从而节省大量的人力、物力、财力资源。
二、国内外研究现状和水平
在以往的研究中,大部分都是基于传统知识的自动构建,设计的模型也都仅仅使用于传统知识。上世纪90年代斯坦福大学的著名人工智能学者Tom Gruber使用LISP语言定义了书目数据的本体模型。北京大学信息管理系的王军的Vision项目采用了面向对象的方法,集成分类法、词表和元数据来构造了一个知识网络。后来,他又做了有关传统知识本体构建方面的工作,实际上是对Vision项目的深化和延续。他的工作继承了Vision项目的基本思想,利用语义网的技术予以实现。功能上,则提供了支持推理的语义检索,展现了怎么样利用传统知识组织工具辅助对网络信息资源的组织与利用。
基于智能文章理解系统的上述问题,当前许多项目已经从不同的方向开始进行了探索和研究。在国内外的众多研究成果中,有三个项目最具代表性,分别是:Mizoguchi Lab实验室的成果,Active-Math和Puzzle。
Mizoguchi Lab主要集中在文章理解方法的模型,特别是在文章理解策略的表示上,他们将文章理解策略用and-or树来表示,该树能够被学习者方便的使用。他们的文章提出了一种基于本体的知识学习对象的动态生成方法。这些对象具有实施AIED技术的特殊性,他们表现出的特点至今仍服务于智能教学系统。此外,他们还解决了使用电子学习资源的问题,说明了如何实现,并演示了如何部署、评估所提出的方法的简要结果。Active-Math主要集中在用一系列的行动来表示文章理解策略,他们展示了如何使用语义Web技术,以改善最先进的网上学习环境和搭建学习者与教师或作者之间的桥梁。其中介绍的本体论框架,有助于规范化复杂且相互作用的不同的学习相关的元素,并展示如何利用语义标注来影响多样化的学习对象。在这个框架之上实施若干反馈渠道来提高未来的基于Web的课程。Puzzle的研究目标是创造出一种学习对象具有,可共享,可适应,融入文章理解方法的,并且能够满足一个特别的能力需要。但是这个研究还是在开始阶段,并且对于更深层次的特定领域文章与书籍,还不能很好的自动构建。
总而言之,以上的研究各有所长,但都有各自的问题,对于基于本体的知识提取算法,目前还处于探索阶段。
三、研究目的
本文的目标是:对于一篇文章,通过电子文章的输入,由系统自动的提取其中的知识点,并进行知识本体构建以辅助文章的理解。
本文将文本挖掘、本体构建、文章设计等知识与技术综合运用,提出了一套自文章分析,到知识提取,再到本体构建的方法,并且分析了其中每个步骤的算法细节,并以java语言为基础,实现了一个知识本体自动生成与展示的系统,以更好的支持文章理解系统。其中重点研究部分为定义的处理、知识本体模型以及数理逻辑里特殊的定义方法。
关键词:文章;课题研究;模型构建
中图分类号:G642 文献标识码:A文章编号:1007-9599 (2011) 20-0000-01
Some Ideas to Carry Out Knowledge Ontology Model Automatic Construction Method Research
Huang Jing,Fei Hongxiao
(School of Software,Central South University,Changsha410075,China)
Abstract:This paper presents the articles,the first for semantic analysis,in order to build ontology model extraction methods,and object ontology model for knowledge creation and display.This informative article to the network,for example,focus on areas of knowledge described in the article for the object model building process,and which the main techniques and methods used.This technical approach that directly address a variety of common ontology construction method a special body within the field problems and inadequate support,and the existing network resources as the basis,directly applied to instructional design.And future research directions are given.
Keywords:Article;Research;Model building
一、课题来源
众所周知,互联网络的快速普及,为学习者提供了丰富的文章素材。但是如何使用好这些文章素材并不容易,如何给出一个明确的学习目标,从众多的学习素材中找出相关的素材,并且按照科学的顺序展现在学习者面前,使得学习者完成该学习目标,是非常难实现的。目前,生成、存储、检索和组织这些素材的工作基本上还是由人来手工完成。虽然目前已经有了一些关于文章素材的元数据标准,但是要想使用必须具备相关领域的知识才行,并且当前有好几种这方面的元数据格式,其操作完全不同,甚至大部分的智能文章理解系统由于缺少学习素材模型不支持开发学习素材。
进入到21世纪,日新月异的互联网发展。让越来越多的人参与到互联网中以获得便利的信息发布方式和渠道,从而也使得互联网中的信息数量以呈现出几何级数增长的趋势告知世人信息时代的蓬勃。大量文本、富文本信息无疑丰富了人们的网络生活。但同时,如此大量文本信息又给用户在寻找和关注重点信息时带来了困扰。电子文档的出现解决了人们对于信息的需求,毕竟纸质书籍昂贵的定价并不能让所有人都能拥有。另一方面,人们在获取电子文档的同时,也越来越希望能得到准确,规范,更适合自己的信息。为了满足人们这种需求,网络中也出现了相应的服务和应用,例如电子书软件的出现,以及相關网站的一些基本介绍;这些从一定程度上解决了上述需求,但还是不能使满足用户的具体需求,比如,如何去接受和理解如此大量的电子文本信息。当人们希望有更好的方法去学习,往往会显得比较困难。
知识本体(Ontology)模型的自动构建正是为了满足互联网用户的上述需求。鉴于当前网络教育资源共享性和可用性差的现状,要降低重复建设所带来的高额成本,避免浪费资源,需要成型更好的重用机制和知识共享。重用和的知识共享关键在对于所共享信息的含义共享者要形成一个一致共同的理解,才能实现在语义层次信息的互操作,从而实现基于知识、更高层的应用智能。语义网(Semantic Web)运用了本体的思想;本体是一种可以有效表现语义和概念结构层次的模型,提供对领域知识的共同理解,确定领域内共同认可的词汇,无论是应用系统还是人之间都可以进行语义上的通讯和理解。也即是说,本体让不同的开发工具和应用平台的之间能够进行共享、重用和通信,而新知识系统能够有效的利用现有的知识系统,可不必“重新设计”,从而节省大量的人力、物力、财力资源。
二、国内外研究现状和水平
在以往的研究中,大部分都是基于传统知识的自动构建,设计的模型也都仅仅使用于传统知识。上世纪90年代斯坦福大学的著名人工智能学者Tom Gruber使用LISP语言定义了书目数据的本体模型。北京大学信息管理系的王军的Vision项目采用了面向对象的方法,集成分类法、词表和元数据来构造了一个知识网络。后来,他又做了有关传统知识本体构建方面的工作,实际上是对Vision项目的深化和延续。他的工作继承了Vision项目的基本思想,利用语义网的技术予以实现。功能上,则提供了支持推理的语义检索,展现了怎么样利用传统知识组织工具辅助对网络信息资源的组织与利用。
基于智能文章理解系统的上述问题,当前许多项目已经从不同的方向开始进行了探索和研究。在国内外的众多研究成果中,有三个项目最具代表性,分别是:Mizoguchi Lab实验室的成果,Active-Math和Puzzle。
Mizoguchi Lab主要集中在文章理解方法的模型,特别是在文章理解策略的表示上,他们将文章理解策略用and-or树来表示,该树能够被学习者方便的使用。他们的文章提出了一种基于本体的知识学习对象的动态生成方法。这些对象具有实施AIED技术的特殊性,他们表现出的特点至今仍服务于智能教学系统。此外,他们还解决了使用电子学习资源的问题,说明了如何实现,并演示了如何部署、评估所提出的方法的简要结果。Active-Math主要集中在用一系列的行动来表示文章理解策略,他们展示了如何使用语义Web技术,以改善最先进的网上学习环境和搭建学习者与教师或作者之间的桥梁。其中介绍的本体论框架,有助于规范化复杂且相互作用的不同的学习相关的元素,并展示如何利用语义标注来影响多样化的学习对象。在这个框架之上实施若干反馈渠道来提高未来的基于Web的课程。Puzzle的研究目标是创造出一种学习对象具有,可共享,可适应,融入文章理解方法的,并且能够满足一个特别的能力需要。但是这个研究还是在开始阶段,并且对于更深层次的特定领域文章与书籍,还不能很好的自动构建。
总而言之,以上的研究各有所长,但都有各自的问题,对于基于本体的知识提取算法,目前还处于探索阶段。
三、研究目的
本文的目标是:对于一篇文章,通过电子文章的输入,由系统自动的提取其中的知识点,并进行知识本体构建以辅助文章的理解。
本文将文本挖掘、本体构建、文章设计等知识与技术综合运用,提出了一套自文章分析,到知识提取,再到本体构建的方法,并且分析了其中每个步骤的算法细节,并以java语言为基础,实现了一个知识本体自动生成与展示的系统,以更好的支持文章理解系统。其中重点研究部分为定义的处理、知识本体模型以及数理逻辑里特殊的定义方法。