东亚-太平洋区域语言相似关系计量研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户：ZHIWEINIU

【摘要】

：

19世纪中到20世纪初,历史语言学成功地解决了大部分欧洲语言的系属关系问题,从而其扩大研究范围,对世界语言进行谱系分类,阐述语言间的渊源关系。亚洲语言最早从研究印度支那

【作者】

：

赵志靖

【出处】

：

上海师范大学

【发表日期】

：

2017年01期

【关键词】

：

汉藏语系 Almeida&Braun调音系统编辑距离斯瓦迪士核心词种系发生树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

19世纪中到20世纪初,历史语言学成功地解决了大部分欧洲语言的系属关系问题,从而其扩大研究范围,对世界语言进行谱系分类,阐述语言间的渊源关系。亚洲语言最早从研究印度支那语言的历史关系开始,逐步建立汉藏语系。汉藏语言的系属分类研究已有近200年历史,近百年来,学界对汉藏语系分类存在较大分歧,导致一系列语言谱系分类的争议,涉及东亚大陆、东南亚半岛以及南太平洋区域整个东南半球的语言,包括侗台语、苗瑶语、藏缅语、汉语、南亚语、南岛语等。迄今为止,学界提出了台卡岱语系、汉藏语系、南岛语系、南亚语系,以及澳泰语系和华澳语系等诸多观点,观点的争论从具体语言的归属到语族之间关系等都有涉及,学者们为如何分类争论不休,很难取得共识。传统的语言分类方法,凭经验做定性分析,无法做语言之间关系程度的量化描述。词源统计法虽然能够对语言间关系做量化描述,但其本质是同源词的选取问题,而这就依赖于专家经验,因此该方法并不客观,容易引起争议。针对前人围绕汉藏语言分类研究出现的争议和分歧,本文的目标是依据计算语言学的原则,利用计算机手段,建立客观的、不依赖人主观判断的、可重复的语言分类系统。本文采用计算机技术和统计方法,依据一定的数学模型,编制特定的计算机程序来研究语言之间的相似关系,使得语言相似关系的研究形式化、算法化、自动化。客观的语言距离的测量方法是基于语言本身的差异。最近这些年,编辑距离被证明测量语言或方言间距离是有效的。编辑距离可应用于不同的语言学领域,如计算语言学和方言学等。Kessler于1995年第一次利用编辑距离测量爱尔兰盖尔语方言间的语言距离。从那以后,有很多的研究用这种方法来测量语言或方言间的距离,例如将编辑距离应用于测量荷兰方言、撒丁语、挪威语、斯堪的纳维亚语和德语等。以上大部分研究的是欧洲语言。除此之外,编辑距离还被应用于印欧语系、南岛语系、突厥语、印度伊朗语系、玛雅语系、米塞-索克语系、奥托-曼格安语系、Huitotoan-Ocaina、Tacanan、Chocoan、穆斯科格语系、南亚语系等。编辑距离在德国马普所已有实践,获得较好成果,被证明是研究西方语言之间的语言距离的有效方法。编辑距离指的是字符串A转化为字符串B所需的最少编辑数。那么相应地应用到语言学中,一个语言变体的一串语音表达可以相应地对应到另一个语言变体的一串语音表达。编辑距离可以发现一个语音变换为另一个语音所需的最少编辑操作数。我们假设这反映了语音差异的感知方式和语言演化过程中的变化现象。那么基于任何一个关系词的不同语言的语音表达间的编辑距离,不同语言间的语言距离就可以被计算出来了。但是,Greenhill对基于编辑距离的语言分类方法提出了质疑。Greenhill(2011)通过对南岛语族的语言数据进行二次抽样,选取其中的三个语言子集来测试基于编辑距离的语言分类方法的性能。结果表明,编辑距离法的分类结果与历史比较法相比,其正确率只有40%;通过使用统一的标音法对语言进行标音后,其正确率提高到最高65%。他认为编辑距离法不能精确地辨识语言之间的关系,并且,导致该方法性能低的主要原因是编辑距离在语言学方面的幼稚性。基于Greenhill的研究结论,本文利用Almeida&Braun调音系统对传统的编辑距离算法进行了改进,提高了编辑距离语言分类方法的性能。然后,利用印欧语6种语言和汉藏语藏语支7种方言对改进的编辑距离算法进行了验证试验。试验结果表明,改进编辑距离算法的分类结果与已有的传统语言学的研究结果是基本一致的,进而说明本文的改进编辑距离算法是可行的,其分类结果是可信的、客观的,可用于语言相似关系的计算并对其进行自动分类。以上系统化的语言相似关系计量研究实现了算法化、自动化,不依赖人的主观意识判断。最后,本文将上述建立好的分类系统应用于汉藏语系的语言相似关系的研究中,对东亚大陆以及东南亚—太平洋区域77种语言/方言(汉语、藏缅语、侗台语、苗瑶语、南岛语、南亚语)做了一下分类,得到本文自己的语言分类结果,并提出了一些自己的看法。本文通过对汉语族、藏缅语族、南岛语族、侗台语族、苗瑶语族、南亚语族中的77种语言/方言做计量分类研究表明,本文提出的改进编辑距离语言分类方法可以应用于东亚语言的研究中,完全可以拓展至中国境内所有语言或方言,从而对中国的语言或方言做出全面而准确的比较科学的分类。

其他文献

奶牛乳房炎的诊治

乳房炎病因复杂,发病率较高,一旦发病,不但引起产奶量下降,而且影响牛奶质量。主要对乳房炎的病因、临床症状、诊断方法、预防及治疗措施作一介绍,以供兽医同仁参考。

期刊

奶牛乳房炎乳头药浴诊断防治

供配电系统设计存在的普遍问题

供配电系统设计具有很强的技术性和规范性,是工业建设中非常普通但又非常重要的一项工作。随着我国经济建设和科学技术的快速发展,工业建设的发展越来越受到重视,从而对供配

期刊

供配电系统配电设备供电计量设计环境

多囊卵巢综合征与心理应激的相关性研究进展

<正>多囊卵巢综合征（PCOS）是青春期及育龄期女性最常见的内分泌及代谢异常疾病,在西方国家发病率约为2. 2%～26%[1-2],在中国约为2%～7. 5%[3],并且呈逐年增高趋势。PCOS临床表现多

期刊

多囊卵巢综合征心理应激相关性

可回收型药物涂层下腔静脉滤器的临床可行性研究

背景和目的肺动脉栓塞(pulmonary embolism ,PE)是仅次于冠心病、高血压病的严重危害人类健康的急性心血管系统的病变。它发病急促,临床表现复杂多变且缺乏特异性,难于被早期

学位

下腔静脉滤器深静脉血栓形成肺栓塞

基于Android系统的婚恋交友APP设计与实现

根据艾瑞咨询统计数据显示,1982年至1997年是中国生育高峰期,而且在1987年达到顶峰,现阶段仍是婚恋高峰。移动互联网的便利性,使得越来越多的互联网服务转向移动端。而婚恋交

学位

婚恋交友安卓开发系统设计应用实现

哮喘患者血清sCD86水平及联合吸入治疗对其影响的研究

目的通过观测慢性持续期过敏性支气管哮喘患者外周血sCD86、IL-4、IFN-γ、嗜酸性粒细胞水平及其在吸入沙美特罗替卡松治疗后的变化情况,探讨sCD86在哮喘发病机制中的作用。

学位

哮喘sCD86嗜酸性粒细胞IL-4IFN-γ规范化治疗

VEGF、HIF-1α在大鼠哮喘模型中的表达及柴朴汤的干预研究

目的：观察缺氧诱导因子、血管内皮生长因子在哮喘大鼠中的表达水平,分析其相互关系及其与气道重塑的关系,探讨其在哮喘气道重塑中的作用。同时研究柴朴汤治疗支气管哮喘的可能

学位

哮喘气道重塑HIF-1αVEGF柴朴汤

以碘离子为电子媒介体过氧化氢、葡萄糖和多巴胺的检测

本文对电化学传感器的结构、原理、分类及发展历程进行了综述,简要介绍了碘元素及其电化学检测。基于碘离子两步骤的电极反应,开展了 H202、葡萄糖和多巴胺的电化学分析。主

学位

碘离子电子媒介体电化学传感器过氧化氢葡萄糖多巴胺

用滞针动疗法对1例外展神经麻痹患者进行治疗的效果研究

目的 :探讨用滞针动疗法对1例外展神经麻痹患者进行治疗的临床效果。方法 :对2013年12月我院收治的1例外展神经麻痹患者的临床资料进行回顾性研究。我院使用滞针动疗法对此例

期刊

外展神经麻痹滞针动疗法效果

Slit2-siRNA玻璃体腔注射对急慢性高眼压大鼠模型视网膜神经节细胞凋亡的影响

目的：建立稳定的SD大鼠的急性和慢性青光眼模型，检测大鼠视网膜上BDNF和slit2mRNA的表达以及RGC凋亡的状况，利用RNAi干扰技术下调slit2mRNA的表达，以期通过上调BDNF的途径降低RGC

学位

slit2siRNA神经保护青光眼大鼠模型

东亚-太平洋区域语言相似关系计量研究

与本文相关的学术论文