论文部分内容阅读
自然语言处理是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。自然语言处理的目标就是让计算机能够处理人类语言,并作出人们所期待的各种正确响应,建立起人与机器间密切而友好的关系,以便进行高度的信息传递与认知活动。随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高,自然语言处理问题已成为了网络社会和网络经济发展的瓶颈。目前自然语言理解的研究仅仅处在让计算机正确理解语言信息的程度上,计算机的智能还远远没有达到能够象人一样理解自然语言的水平。计算机从诞生之日开始就是以处理印欧语系为基础的,再加上汉语是意形结合的语言,缺乏形态变化,比西方语言复杂,因此计算机处理汉语很困难。为了解决句子的理解问题,计算机必须通过句法分析、语义分析和语境分析得到句子的形式化机内表示。计算机对语言的分析和理解过程是一个层次化的过程,分为词法分析、句法分析和语义分析。目前句法分析使用的方法主要有基于统计的方法、基于规则的方法和采用规则和统计相结合的混合方法。在语义分析上的研究大多是在句法规则的基础上加强语义分析、研制语义信息词典,借助语义特征、语义关系、配价分析等条件识别句子中的各个成分,找到成分之间的结构关系和结构意义。这些方法运用很广,但它们往往会因分裂句法和语义的关系而歧义丛生,造成语句的理解错误。本文提出一个全新的思路来分析语句和消除层次结构歧义及语义歧义。这个方法突破以往只从句法上分析语句的局限,将句法、语义、语用三个平面结合起来。首先在句法和语义平面利用《知网》和《现代汉语语法信息词典》抽取必要的语法和语义信息构成词汇复杂特征集,再以词汇复杂特征集的功能描述为基础,对语句运用合一运算进行组块。然后在语块内利用CYK算法和《知网-中文信息结构库》改写的CNF进行层次结构消歧和语义消歧。对于无法直接运用该方法消除的歧义,将借助语用平面结合具体的语境进行处理。