论文部分内容阅读
现代社会生活中信息的产生、交换无时无刻不在进行着,人们从信息中获取知识以便经济、文化和生活得以持续发展。文本作为信息资源的一种媒介,在人类发展的历史长河中发挥着无可替代的作用,对其进行分析能够帮助人们理解、运用知识。此外,近代社会中计算机的出现给文本分析带来了一种全新的自动的解决工具,文本语义分析的前提是文本语义表示,好的表示方法不仅可以带给人们记忆、理解的快乐,同时有助于工具的开发。现存的文本语义分析重在逻辑推理、数学计算以及结论证明等,而观察者、分析者借助计算机进行相应的计算、操作。本文首先从文本语义表示与分析方法进行介绍,概括常见的文本语义表示方法,如一阶逻辑谓词、语义角色标注、语义框架及E-A-V(Entity-Attribute-Value)结构概念图等,同时以实例说明文本语义分析的过程,并且重点介绍了概念内涵分析方法。其次,概念图是一种已被证明优于经典的知识表示方法,使用它作为汉语文本语义表示与分析方法给中文语义信息处理研究提供了新思路,同时概念图的构建工作是基于句法分析标注结果,但是句法分析标注关系与语义关系的对应并不协调,而且概念图三要素(概念、关系以及有向弧线)和特征项的抽取、识别方法是概念图知识表示与分析相关研究的基础,因此本文总结了当前概念图三要素的抽取、识别以及概念图的构建方法。此外,汉语作为义符文字,概念内涵显露于结构外形,而Entity-Attribute-Value结构适用于具有主体、功能的定中关系结构的句子,而传统概念图适用于具有主谓关系的语义句子,因此论文提出C-A&R(Concept-Attribute&Relationship)结合概念内涵属性与实体关系的概念图作为中文语义句子的知识表示方法。然后,本文以C-A&R概念图作为文本标引,提出概念层次结构结合向量空间模型VSM的计算方法来计算两个C-A&R概念图的语义相似性。最后,本文对提出的C-A&R概念图表示与分析方法建立了相应的实验来验证方法的有效性、精确性。