论文部分内容阅读
19世纪中到20世纪初,历史语言学成功地解决了大部分欧洲语言的系属关系问题,从而其扩大研究范围,对世界语言进行谱系分类,阐述语言间的渊源关系。亚洲语言最早从研究印度支那语言的历史关系开始,逐步建立汉藏语系。汉藏语言的系属分类研究已有近200年历史,近百年来,学界对汉藏语系分类存在较大分歧,导致一系列语言谱系分类的争议,涉及东亚大陆、东南亚半岛以及南太平洋区域整个东南半球的语言,包括侗台语、苗瑶语、藏缅语、汉语、南亚语、南岛语等。迄今为止,学界提出了台卡岱语系、汉藏语系、南岛语系、南亚语系,以及澳泰语系和华澳语系等诸多观点,观点的争论从具体语言的归属到语族之间关系等都有涉及,学者们为如何分类争论不休,很难取得共识。传统的语言分类方法,凭经验做定性分析,无法做语言之间关系程度的量化描述。词源统计法虽然能够对语言间关系做量化描述,但其本质是同源词的选取问题,而这就依赖于专家经验,因此该方法并不客观,容易引起争议。针对前人围绕汉藏语言分类研究出现的争议和分歧,本文的目标是依据计算语言学的原则,利用计算机手段,建立客观的、不依赖人主观判断的、可重复的语言分类系统。本文采用计算机技术和统计方法,依据一定的数学模型,编制特定的计算机程序来研究语言之间的相似关系,使得语言相似关系的研究形式化、算法化、自动化。客观的语言距离的测量方法是基于语言本身的差异。最近这些年,编辑距离被证明测量语言或方言间距离是有效的。编辑距离可应用于不同的语言学领域,如计算语言学和方言学等。Kessler于1995年第一次利用编辑距离测量爱尔兰盖尔语方言间的语言距离。从那以后,有很多的研究用这种方法来测量语言或方言间的距离,例如将编辑距离应用于测量荷兰方言、撒丁语、挪威语、斯堪的纳维亚语和德语等。以上大部分研究的是欧洲语言。除此之外,编辑距离还被应用于印欧语系、南岛语系、突厥语、印度伊朗语系、玛雅语系、米塞-索克语系、奥托-曼格安语系、Huitotoan-Ocaina、Tacanan、Chocoan、穆斯科格语系、南亚语系等。编辑距离在德国马普所已有实践,获得较好成果,被证明是研究西方语言之间的语言距离的有效方法。编辑距离指的是字符串A转化为字符串B所需的最少编辑数。那么相应地应用到语言学中,一个语言变体的一串语音表达可以相应地对应到另一个语言变体的一串语音表达。编辑距离可以发现一个语音变换为另一个语音所需的最少编辑操作数。我们假设这反映了语音差异的感知方式和语言演化过程中的变化现象。那么基于任何一个关系词的不同语言的语音表达间的编辑距离,不同语言间的语言距离就可以被计算出来了。但是,Greenhill对基于编辑距离的语言分类方法提出了质疑。Greenhill(2011)通过对南岛语族的语言数据进行二次抽样,选取其中的三个语言子集来测试基于编辑距离的语言分类方法的性能。结果表明,编辑距离法的分类结果与历史比较法相比,其正确率只有40%;通过使用统一的标音法对语言进行标音后,其正确率提高到最高65%。他认为编辑距离法不能精确地辨识语言之间的关系,并且,导致该方法性能低的主要原因是编辑距离在语言学方面的幼稚性。基于Greenhill的研究结论,本文利用Almeida&Braun调音系统对传统的编辑距离算法进行了改进,提高了编辑距离语言分类方法的性能。然后,利用印欧语6种语言和汉藏语藏语支7种方言对改进的编辑距离算法进行了验证试验。试验结果表明,改进编辑距离算法的分类结果与已有的传统语言学的研究结果是基本一致的,进而说明本文的改进编辑距离算法是可行的,其分类结果是可信的、客观的,可用于语言相似关系的计算并对其进行自动分类。以上系统化的语言相似关系计量研究实现了算法化、自动化,不依赖人的主观意识判断。最后,本文将上述建立好的分类系统应用于汉藏语系的语言相似关系的研究中,对东亚大陆以及东南亚—太平洋区域77种语言/方言(汉语、藏缅语、侗台语、苗瑶语、南岛语、南亚语)做了一下分类,得到本文自己的语言分类结果,并提出了一些自己的看法。本文通过对汉语族、藏缅语族、南岛语族、侗台语族、苗瑶语族、南亚语族中的77种语言/方言做计量分类研究表明,本文提出的改进编辑距离语言分类方法可以应用于东亚语言的研究中,完全可以拓展至中国境内所有语言或方言,从而对中国的语言或方言做出全面而准确的比较科学的分类。