论文部分内容阅读
汉语自然语言处理是套用西文的自然语言处理方法?还是需要提出新的方法?为了解决汉语自然语言问题,并考虑到自然语言处理领域的基本理论尚未突破,从最基础理论着手,站在中间语言立场上,研究语言的本质、建立语言系统的模型。
为了建立语言模型,分析自然语言本质,根据对称性分析,发现了语义的群本质。用抽象代数方法对语义群进行了定义。对语义群结构、性质、表现等进行描写,为了描写语义群结构、分析了语义群上的同余关系等关系,对其理想、子群、中心、阶、交换性、类、直积结构等进行初步归纳,对其有限性、无限性、连续性、离散性进行了讨论,最后假设语义群为有限、离散群。
考虑到语言是思维的表达,语言模型需要给出“代表着思维的、抽象的语义群”与语言的直接表现——“词连接半群”相互作用的主要框架。为此,分析对比了语义群的几种可能的抽象代数表示,将群与半群的性质、关系作对比研究,最后给出语言的抽象代数模型,即以一个有限、离散的语义群作用于一个词连接半群上的系统。这种模拟思维与语言表达间相互作用的语言模型能够模拟语言的动态变化性。
分析了这种作用的核、置换成份、传递性、非本原性、中心化子、正则性、块、轨道、不动点等,据此描述了抽象代数语言模型的结构。
应用该语言模型建立了汉语自然语言处理模型、建立了语言风格模式识别理论、进行了语言理解分析等,三个主要创新点总结如下:
1)丰富了语言风格模式识别理论。针对语言风格模式识别领域普遍采用统计某些词的共现频率的方法、缺乏对于所统计词对象是否真正能够代表一个人的语言风格这个问题的理论分析的问题,首先在抽象代数领域找到自然语言交流的一个数学模型,然后将其还原到自然语言本质分析上,对该自然语言交流模型进行更细致的描述和补充,证明了ρ关系即是同义关系。经过分析得到对于语言风格识别的定义和特征指标认定,确定语言风格模式识别的特征指标是:短语结构、同义关系ρ、并给出ρ的机器学习方法。
2)建立了一个抽象代数的、自然语言的系统化模型。其结构是一个语义群作用于一个词连接半群上。这种结构反映了对于语言系统是一个“‘思维决定语言’的动态系统”的认识。用这个系统化模型可以解释“不完整句”的语义形成过程、和语言的“完全解释性原则”的之所以存在的原因等自然语言的自然现象。由于语义群和词连接郡都是基于对称性的,所以也可以说,我们是用对称性来解释这些语言现象的。
3)重新诠释了自然语言的对称性。以前的对称性蕴含于词连接群中,许多学者经过多年研究,将其在编码、解码、加密、解密等领域进行了应用,但始终不能用它来解释任何自然语言现象。这里提出的对称性是一个语义群作用在一个词连接半群上之后体现出来的对称性,这种对称性决定的是语言符号串间的可搭配与不可搭配、以及搭配后最终形成什么样的语义结果。这种对称性是基于对汉语的观察得到的。基于对称性观察,用抽象代数方法证明了任何一个语种的语义集合都是语义群。
最后,基于自然语言抽象代数模型所建立的汉语自然语言处理的系统模型,回答了一开始所提出的、要解决的问题,即汉语可以采用与西文不同的处理方法。