论文部分内容阅读
随着计算机应用技术的发展,语义信息处理成为当前备受关注的研究热点。然而,现有语义知识库普遍缺乏知识的形式化表达与计算的能力,这使得语义信息处理的进一步发展受到制约。为了推动形式化的基础语义知识库的构建,本文以现代汉语词典等当代常用词典为研究对象,研究了对汉语词典义(即词典的意义)的语义理解。基于概念知识树(Conceptual Knowledge Tree,CKT)知识表示模型,提出了一套对汉语词典义进行计算机存储、管理、分析和计算的可行方法,设计并构建了词典义的人工语义分析平台,并初步实现了一个词典义自动语义分析系统。本文主要包括四个方面的内容: (1)为了实现语义知识的形式化表达,同时也为了给词典义自动语义分析方法提供理论基础,本文以CKT为知识表示方法,讨论了其在词典领域的语义界定,并对其进行了语义推理模型的理论总结和形式化计算理论的完善。通过研究复合概念与其成员概念在属性、关系和行为等语义要素上的关联关系,给出了复合概念的知识推理规则;通过分析父子概念间和整体部分概念间的属性继承关系,给出了概念的属性推理规则;借鉴形式语义学的计算模型,利用数理逻辑和Lambda演算,把独立概念、复合概念、属性、关系、知识树等语义元素作为基本谓词加入到语义的组合演算中,实现了真正意义上的语义形式化计算与推理。 (2)为了实现以词典数据为语料的语义知识库构建和语义分析研究,本文通过词典数据预处理,完成了从非结构化的原始词典文本数据到结构化的词典义中间数据的转换。文本基于CKT模型,把词典结构化数据转换成由概念符号、概念词语集合、概念定义、概念词性、示例、注音等信息描述的词典义初始数据,为词典义语义分析研究提供了简洁、规范的数据储备。在对词典义初始数据进行语义预处理时,我们还得到了丰富的概念属性知识和概念关系知识,这些语义知识将成为形式化基础语义知识库的重要知识储备。 (3)为了保证词典义中间数据语义分析的正确性,同时为词典义知识库的构建提供人机交互的接口,本文基于CKT表示模型,设计并实现了词典义的人工语义分析平台。该平台采用导航式和递归式的交互手段,通过概念管理、属性编辑、关系编辑、语义复合以及知识树构建等功能模块,逐步引导用户理解CKT的原理和组成,最终使用户通过人机交互界面轻松地实现对词典义的语义理解。 (4)为了加快词典义语义知识库的构建速度,同时为短文本自然语言理解提供一种自动语义分析方法,本文基于句法-语义相融合的思想,完成了基本结构词典义释义模式的语义分析,并提出了一种嵌套语义的复合算法;进一步根据CKT形式化表达理论与语义推理模型,提出了基于CKT的规则系统;利用基于CKT规则系统的词典义自动语义分析方法,对长度在15字符以内的词典义数据进行了实验,当字符数在7以内时,方法覆盖率达到84.94%,同时方法准确率达93.33%。实验效果表明,本章所提方法对短长度的词典义数据效果显着。 通过本文工作,我们得到了概念规模为76828的词典义语义知识库,其中已有30326个概念定义实现了自动语义理解,898个概念定义实现了手动语义理解,此外,知识库中还包含了大量概念属性知识和概念关系知识。本文提出的语义理解方法和实现的语义知识库致力于推动汉语语义信息处理的进一步发展。