论文部分内容阅读
近20年来,中国农史文献资料的研究已经由传统的手工整理方式逐渐转向农史信息资源的数字化整理和建设,并借助于现代化的技术和手段来加强农史信息资源的产生、组织、存取、传播和利用,以便用户更便捷地获取农史研究资料,促进农史研究的发展。从目前的现状来看,农史学科已经拥有了一批数字化资源,这无疑促进了农业科技遗产的保护和传播。然而从利用的角度来看,在农史信息资源的组织和存取技术还有待提高,主要表现在缺乏有力的语义管理工具,检索技术相对陈旧,计算机仅把用户的检索关键词当作简单的字符处理,因此,在农史领域建立一种语义描述机制,使得计算机能够具有语义理解能力,是提高农史信息资源服务效果的有效手段。本体(Ontology)作为一种能够在语义和知识层次上描述信息系统的概念建模工具,自被提出以来就引起了国外众多科研人员的关注,并在知识工程、数字图书馆、软件复用、信息检索和Web异构信息的处理、语义Web等众多领域得到了广泛的应用。本文将本体引入到农史领域,尝试构建农史领域本体作为农史信息资源加工、组织和利用中有力的语义工具来解决语义异构问题,使得农史领域概念能够有着明确唯一的定义,在人和机器之间达成一种共识,促进人机交流。本文首先对农史信息资源的组织模式进行调查统计,分析目前农史信息资源组织现状,提出建立本体作为农史学科的语义工具,是提高农史信息资源管理和服务的有效手段,进而结合情报学领域在编制分类表和叙词表的技术和经验,借鉴知识工程领域在构建专家知识库中取得的成绩以及机器学习技术和自然语言处理技术的成果,尝试半自动地构建农史领域本体,提高本体构建的效率。最后,以该领域本体为基础,设计并开发了一个基于领域本体的语义检索模型。本文的研究内容主要有以下几个方面:(1)对农史信息资源组织方式的调查分析随着计算机技术的迅猛发展,农史信息资源的组织方式已经由传统手工编制的目录、索引,发展到了文献数据库、网站等高级组织方式。本文首先对目前农史信息资源数字化组织现状进行调查与统计,目前的农史信息资源组织主要有专题网站、专题数据库和数字图书馆/数字博物馆三种类型,并对它们的分布进行了统计分析,以便了解农史信息资源建设现状。农史信息资源服务的效果是体现农史信息资源数字化建设的关键所在。本文在农史信息资源调查的基础上,从农史信息资源的资源组织方式、检索技术和信息服务类型三个层面对目前的农史信息资源组织现状进行了总结和分析,指出其主要的不足是资源的组织中缺乏语义控制机制。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,可以对共享概念达成统一理解,为计算机提供一种互操作语言。本文提出利用本体来加强农史概念的形式化描述,并分析了领域本体在农史信息资源组织中对于提升信息服务的作用。(2)古农学本体构建模式研究本体的构建是解决语义异构问题的基础,因此实现语义Web需要大量的本体作为支撑。对于本体的构建,目前主要是手工构建方法和工具的研究。手工构建本体费时费力、进展缓慢且成本高昂,这也是本体构建无法走出实验室的原因之一。机器学习等文本自动化处理技术为本体的自动构建奠定了基础。从长期的发展趋势看,自动构建本体是未来的发展方向,但是在目前技术尚未成熟,机器学习到的概念关系还不够精细和准确。因此,从本体构建的可行性角度考虑,本文采用人机协作的半自动构建模式构建古农学本体。在前人构建领域本体方法论的基础上,结合叙词表的编制模式,由专业人员通过对古代农学领域概念关系分析给出领域的上层知识模式,利用机器学习技术从领域语料中学习概念关系,将专业人员的自顶向下和机器学习的自底向上的结果结合起来。(3)古农学本体半自动构建技术研究本研究尝试综合运用多种技术方法用于领域关系的发现和识别,初步实现领域概念的获取、等级关系的识别以及领域概念关系的发现和本体的形式化描述。①古农学领域概念的自动获取。采用基于N-Gram的无词典分词方法从古农学研究论文中获取领域候选概念,同时根据文献保障原则利用文本自动主题标引方法对候选概念进行筛选,以获得领域的核心概念。②古农学本体领域等级关系的建立。根据专业人员给出的古农学领域上层模式,结合现有的领域相关的分类表和主题词表的分类体系,以保证构建的领域本体具有通用性和良好的逻辑基础,同时利用改进的层次聚类法从古农学文本语料中识别等级关系,对原有的分类体系进行扩充和更新。③古农学领域概念属性关系的建立。采用基于关联规则挖掘和基于自然语言处理两种方法相结合的方式从古农学研究论文中获取领域概念的属性关系,利用支持度和置信度等度量方法从文本语料中获取最相关概念,利用汉语的句法特点从文本中抽取主谓宾关系,获取概念属性关系。这样可以减少大规模统计方法缺乏必要语义逻辑基础的不足,也可以降低概念间语义关系分析过分依赖复杂的语言处理模型的弊端。另外,采用基于模式匹配的同义词识别方法为概念获取同义词属性。④古农学本体的形式化。本体的形式化处理,可以对概念关系按照既定的规则进行批处理并自动地生成形式化的本体,提高古农学本体生成的效率。可在已经识别出各种概念关系的基础上自动完成古农学本体的形式化文件的生成。(4)基于古农学本体的语义检索机制研究本文设计和开发了一个基于古农学本体的语义检索模型来探索基于领域本体的语义检索实现机制。该模型的主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成。借助本体对用户的检索关键词进行语义分析,获取隐含概念,形成对检索需求的规范化描述,使得用户和机器获得统一的机器可理解的语义知识,实现信息资源的语义检索。本体的构建是一项复杂的系统工程,涉及多个学科领域,因此本文所作的工作还非常有限。其一是将本体引入农史信息资源管理,其二是探索半自动构建农史领域本体的技术和方法。由于时间和人力的限制,本文也仅选取了农史学科的一小部分——古农学作为本体构建对象,开发的原型工具尚处于实验探索阶段,在今后的工作中尚需要进一步的扩充和深入的研究。