论文部分内容阅读
从20世纪50年代至今,自然语言处理作为人工智能的一个重要分支有很大发展。但是由于自然语言本身的特性,目前计算语言技术还不能像人一样处理自然语言,从而限制了自然语言在智能系统中的应用。受控自然语言是自然语言的一个子集,以语言学、逻辑学、知识分类理论、心理学和信息学等为理论基础,在一个领域内限制自然语言的词库、语法及意义,减少或者消除语言的歧义性和复杂性的目的,从而提高了自然语言在智能系统中的应用性。语义网是目前被广泛用于知识表示的一种技术,目的是构造一个以本体为核心的语义网络。目前,由W3C组织提出的OWL本体和SWRL规则技术规范已经广泛用于构造各种知识库系统。本文在对受控自然语言、本体及规则的相关理论进行深入研究基础上,提出了基于本体和规则的受控自然语言系统模型,主要工作包括以下几个方面:首先,建立了基于WordNet的受控自然语言本体词库模型CNLNet,采用本体论描述领域概念及概念之间的关系,便于受控自然语言系统进行歧义消解处理。WordNet是一个规模最大并且使用最为广泛的在线英语语义词典。WordNet把同义词集合作为基本元素按照一种系统化结构进行组织,每个同义词集合代表一个词汇概念,语义之间的关系通过概念之间的关系体现,包括同义关系、反义关系、整体与部分和上下位关系等等,形成一个完整的词汇语义网络。本体是从哲学范畴借用的一个概念,是语义网体系结构中的重要内容,具有强大的语义描述能力,采用形式化和结构化的方式从不同的层次对本体及本体之间的关系进行语义描述,便于计算机可以识别并且对其进行解释和处理。其次,提出了基于本体词库的下文无关文法理论的受控自然语言解释器CNLInterpreter。CNLInterpreter有两部分组成:句法剖析器和语法树解释器。句法剖析器以概率词条化上下文无关文法理论为基础,结合CNLNet本体词库,把受控自然语言句子剖析成抽象语法树;语法树解释器把抽象语法树解释成中间表达语言篇章表述结构,篇章表述结构描述了受控自然语言句子的语义信息。实验证明该解释器具有较好的句法剖析和语义解释能力。然后,提出了基于本体和规则的受控自然语言系统的推理机CNLReasoner。CNLReasoner的逻辑基础是语义网OWL本体公理和SWRL规则公理。受控自然语言句子经过语言处理部分生成篇章表述结构,然后通过知识转换工具转换成语义网OWL本体和SWRL规则知识,最后通过Jess规则引擎对知识进行推理。实验证明了该推理机的正确性和有效性。最后,建立了基于本体和规则的受控自然语言的用户接口系统模型。基于逻辑的受控自然语言具有形式逻辑的基础,除了可以用于描述知识外,还可以作为计算机系统的用户接口与用户进行交互。受控自然语言句子通过语言处理部分生成篇章表述结构,通过基于本体和规则的知识库系统识别用户输入的关键语义信息,提交给应用系统执行相关操作,并返回执行结果信息。通过以上工作,本文详细讨论了基于本体和规则的受控自然语言系统模型。本文在本体和规则的理论基础上提出了两种受控自然语言应用模型:一是基于本体和规则的推理系统,结合语义网本体和规则公理进行推理,构建知识库系统;二是基于本体和规则的用户接口系统,通过本体与规则分析受控自然语言的语义信息,提交给应用系统,执行系统动作,完成业务操作。这两个系统模型基本实现了本体、规则和受控自然语言的有机结合,为受控自然语言在相关领域范围内应用提供技术支持框架。实验表明,本文提出的基于本体和规则的受控自然语言系统模型不仅具有重要的理论意义,而且具有实用价值,本文研究结果可以作为受控自然语言相关应用研究的参考和应用基础。