汉语词典义的语义理解研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ccmjacky20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用技术的发展,语义信息处理成为当前备受关注的研究热点。然而,现有语义知识库普遍缺乏知识的形式化表达与计算的能力,这使得语义信息处理的进一步发展受到制约。为了推动形式化的基础语义知识库的构建,本文以现代汉语词典等当代常用词典为研究对象,研究了对汉语词典义(即词典的意义)的语义理解。基于概念知识树(Conceptual Knowledge Tree,CKT)知识表示模型,提出了一套对汉语词典义进行计算机存储、管理、分析和计算的可行方法,设计并构建了词典义的人工语义分析平台,并初步实现了一个词典义自动语义分析系统。本文主要包括四个方面的内容:  (1)为了实现语义知识的形式化表达,同时也为了给词典义自动语义分析方法提供理论基础,本文以CKT为知识表示方法,讨论了其在词典领域的语义界定,并对其进行了语义推理模型的理论总结和形式化计算理论的完善。通过研究复合概念与其成员概念在属性、关系和行为等语义要素上的关联关系,给出了复合概念的知识推理规则;通过分析父子概念间和整体部分概念间的属性继承关系,给出了概念的属性推理规则;借鉴形式语义学的计算模型,利用数理逻辑和Lambda演算,把独立概念、复合概念、属性、关系、知识树等语义元素作为基本谓词加入到语义的组合演算中,实现了真正意义上的语义形式化计算与推理。  (2)为了实现以词典数据为语料的语义知识库构建和语义分析研究,本文通过词典数据预处理,完成了从非结构化的原始词典文本数据到结构化的词典义中间数据的转换。文本基于CKT模型,把词典结构化数据转换成由概念符号、概念词语集合、概念定义、概念词性、示例、注音等信息描述的词典义初始数据,为词典义语义分析研究提供了简洁、规范的数据储备。在对词典义初始数据进行语义预处理时,我们还得到了丰富的概念属性知识和概念关系知识,这些语义知识将成为形式化基础语义知识库的重要知识储备。  (3)为了保证词典义中间数据语义分析的正确性,同时为词典义知识库的构建提供人机交互的接口,本文基于CKT表示模型,设计并实现了词典义的人工语义分析平台。该平台采用导航式和递归式的交互手段,通过概念管理、属性编辑、关系编辑、语义复合以及知识树构建等功能模块,逐步引导用户理解CKT的原理和组成,最终使用户通过人机交互界面轻松地实现对词典义的语义理解。  (4)为了加快词典义语义知识库的构建速度,同时为短文本自然语言理解提供一种自动语义分析方法,本文基于句法-语义相融合的思想,完成了基本结构词典义释义模式的语义分析,并提出了一种嵌套语义的复合算法;进一步根据CKT形式化表达理论与语义推理模型,提出了基于CKT的规则系统;利用基于CKT规则系统的词典义自动语义分析方法,对长度在15字符以内的词典义数据进行了实验,当字符数在7以内时,方法覆盖率达到84.94%,同时方法准确率达93.33%。实验效果表明,本章所提方法对短长度的词典义数据效果显着。  通过本文工作,我们得到了概念规模为76828的词典义语义知识库,其中已有30326个概念定义实现了自动语义理解,898个概念定义实现了手动语义理解,此外,知识库中还包含了大量概念属性知识和概念关系知识。本文提出的语义理解方法和实现的语义知识库致力于推动汉语语义信息处理的进一步发展。
其他文献
该设计拟用面向对象的方法实现计算机的智能辅助设计.面向对象的开发方法一改传统的自顶向下的功能分解法,而采用自底向上的基本构件法.面向对象的开发方法强调分析与设计的
该文在对DMC传统算法研究的基础上, 分别比较了反馈校正修正预测值中增加误差变化率校正项的DMC改进算法和反馈校正修正的预测初值的DMC改进算法对系统性能的影响.并由此提出
该文在充分滔滔化和吸收前人研究成果的基础上,进行了基于神经元网络的软测量技术的应用研究.软测量技术的核心问题是软测量模型的建立,因此该文着重研究软测量模型的建立方
击键行为的特征在生物统计学中属于非固定的生物特征.击键人身份识别技术成本低,而且受检验的人在识别过程中不会有不舒服和感觉.因此击键人身份识别技术在计算机和网络系统
随着科学技术的不断发展,人们越来越重视不稳定系统的镇定问题,认识到其研究价值,但现有的研究中缺乏广泛意义下的噪声源和镇定形式。本文以时滞系统和马氏切换系统镇定和控制为
该文总结了几个来上海理工大学DCS过程控制实验室的设计和实现工作中取得的主要成果.主要包括:组件式软件开发技术在实时控制软件开发中的应用;上海理工大学DCS过程控制实验
学位
该文重点讨论web信息挖掘,系统阐述了web文档页数挖掘的理论和方法,目标是想用关系数据库管理系统技术(RDBMS)来管理和查询Web信息源.基本思想是应用数据挖掘技术,从Web页中
火炮射击精度、命中概率、毁歼概率都是射击效能的重要指标。有关高炮武器系统射击效能定型试验的相关国军标是其验收与列装的依据,也是论证、设计与检测所必须满足的最关键的
图像特征提取是计算机视觉和模式识别等领域的一个重要研究内容,它是图像匹配、图像拼接、图像检索、数字水印等众多视觉问题的基础。图像局部不变特征具有不受平移、尺度、旋