什么是世界上最怪异的语言?

来源 :求知导刊 | 被引量 : 0次 | 上传用户:wlq8201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。
  自然语言处理(Natural Lan-
  guage Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。
  为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。
  纵观全球,纠出“语言异类”
  语言结构世界地图(World
  Atlas of Language Structures,
  下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面—共计 192 种不同的语言特征。
  因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语—动词—宾语”, WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾”词序。同时,只有 8.7% 的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)
  WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据不足其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。)
  现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因 WALS 中列举的语言特征本质而决定—有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。
  至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语—宾语—动词”词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是 0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这 21 项语言特征而言,至少三分之二(即 14 项)具有数据值(即 239 种语言)。
  答案揭晓:全世界最怪异的语言是——
  与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克语”(Chalcatongo Mixtec),又名“大圣米格尔米斯特克语”(San Miguel el Grande Mixtec)。第二名在西伯利亚有 2.2 万人使用:涅涅茨语(Nenets)—英文里“派克大衣”或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有 1 万人使用,大多在美国俄克拉荷马州。
  但是,难就难在这儿了—有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数”(Language Weirdness Index)表中也位列第 33 名。
  世界上最怪异的 25 种语言:北美洲的,恰卡通戈米斯特克语、乔克托语、大梅萨迪埃格诺语(Mesa Grande Diegue?o)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumarí)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(Harar Oromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Ju|'hoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。   顺带一提,皮詹加加拉语(Pitjantjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?*)
  以两项特征为例:问句与代词
  “这很怪。这很怪吗?”
  (This is odd. Is this odd?)区分各种语言的特征之一,是“是非问句”的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“か”[ka])。在 WALS 中,有 954 种语言具有这项值的编码,其中 584 种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗”实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为 1.4%。也就是说,一共只有 13 种语言采用这样的方式,而它们大部分都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。
  但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换……这种语言就“是否”提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。
  语言还需应付的另一个问题,是如何处理简单主语代词,比如“我”(I)、“他们/她们/
  它们”(they)、“它”(it)。这些词称为“代词主语”(而像“有关部门负责人含糊其辞”这样的说法则是使用了名词主语)。最通常的做法,是将代词信息附加到动词上—所调查的 711 中语言中有 437 中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语一样,宁可使用特别的主语代词,而这些代词通常—或必须—在句中出现。不过,在 WALS 有编码的 711 种语言里,也只有 82 种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有 100 人使用)和穆穆耶语(尼日利亚有 40 万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,则与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。
  世界上最“不怪异”的语言
  如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的 21 种语言特征而言,它们相当随大流。请注意,在怪异度各级分布中,我们有一些孤立语言(比如巴斯克语)。巴斯克语很“典型”;但是另一种孤立语言,库特奈语,则相当怪异。更令人惊讶的是,汉语普通话名列 25 大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音(uvular continuants),而且在软腭鼻音方面有一些局限(普通话同英语类似,可以发出英语“song”词尾的那个音,比如汉语“颂”[sòng];但无法将这个尾音置于单词的词首发音—世界性地来看,这个特定限制实属罕见。)
  而在怪异指数列表最末尾的几种语言里,有两种你听过,有 3 种你可能没听过:匈牙利语,
  通常享有“语言学异类”的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有 9.5 万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purépecha,5.5 万使用者,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅 0.087 的语言,是印地语—只有一项怪异特征。
  这一点,一部分说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个基本问题:如果我们调查研究主要基于大学生——即如约瑟夫·亨利希(Joseph Henrich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生—那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常”,或曰怪异,那你就要问问自己,这是否会导致研究的变化。
  你讲英语,你很怪
  尽管这里采用的方法没有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大部分都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS 并不具备全球约 4000 种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。
  话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名 33 位,指数值 0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。)
  *内容注释:
  译注:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语”(Pitjantjara ['b???an?a?a]),所以这个完整的拉丁化拼写并非“有一个音节不发音”,而只是有一个音节“可以”省略且不发音。
其他文献
在这个世界上,不管人们走到哪里,有两样东西总会伴随左右:语言和火。在穿过热带雨林时,人们会将燃烧着的珍贵木炭小心保存起来,以免被暴雨浇灭。当他们在茫茫北极定居,会随身携带着火种,然后在盛满动物脂肪的石器中重新点燃。达尔文认为它们是人类最重要的两大成就。一个没有语言的社会当然是不可想象的,但是,如果在一个气候适宜、野生食物充足的环境下,是不是一个原始部落就能够不靠烹饪而存活下去?事实上,尚未发现过有
期刊
摘 要:大学毕业生必须具备一定的创新能力。在师范物理专业的办学中,我们采用“课堂+项目”创新能力的培养模式。除开贯穿全程的第一课堂教学之外,以第二课堂项目推动的方式,加强创新能力的培养。  关键词:物理专业;师范生;研究能力  师范生创新能力的培养一直受到教育工作者高度关  注[1-2]。《高等学校物理学本科指导性专业规范(2010版)》对物理学毕业生(包括师范生)的所具备的创新能力提出如下要求[
期刊
彗星曾经被认为是不祥的征兆。但实际上,它们和行星、小行星、尘埃一样只不过是太阳系中的一类天体。虽然如此,但它们却同时也是壮观、有趣、值得研究的天体。就在100年前——1910年4月,哈雷彗星华丽地回归,从距离地球2300万千米远的地方飞过。当时它极为明亮,即便是在都市中也清晰可见。  根据计算,哈雷彗星的彗尾会扫过地球,这引发了大范围的恐慌。因为在彗星中探测到了氰,人们担心它会毒死地球上的生物。 
期刊
如果我们的地球停止转动,或者有两个月亮,抑或没有月亮,又或者本身就是一颗卫星会怎么样?  在英国科幻作家韦尔斯(H. G. Wells)离奇的小说《可显神迹的人》中,乔治·福瑟林盖伊(George Fotheringay)发现自己拥有超自然的神力。在当地牧师的怂恿下,他在夜里用这一天赋奇迹般地修缮房屋、改造醉鬼。后来他意识到,有一个办法可以让他在日出前赢得更多的时间来做好事,那就是让地球停止转动。
期刊
进入耶鲁或任何一所常春藤,对一个人的成功究竟有多重要?获得了引人注目的履历、人脉及最好的大学教育,但付出的代价又是什么?  乔治·布什(George Bush)与副总统理查德·切尼(Richard Cheney)在白宫当政的那八年里,中国人喜欢开玩笑说,从耶鲁(Yale)毕业能当总统,从耶鲁辍学能当副总统。今年有五百名中国尖子生会争夺耶鲁大学2012级的区区十来个学位,因为他们相信耶鲁文凭能带来一
期刊
摘 要:现有计算机网络课程学习模式有所不足,而中职学生的工学结合主要方式为顶岗实习,但因种种原因无法达到提高学生技能的目的。笔者认为将“工学结合”引入到课程学习模式中,对专业课程进行整合,在理论实践相结合的环境中训练学生,提高学生的综合工作能力。  关键词:中职;计算机网络课程;工学结合;学习模式  中职计算机网络专业在南京下关中等专业学校(以下简称“我校”)开设多年,课程设置较为合理,也为社会输
期刊
你不会发觉森林里有任何古代人类带来的影响,除非你去发掘。  研究人员对前哥伦布时期人类在亚马逊森林定居范围的大小问题争论不休。  2007年,Crystal McMichael首次带领一队人员进入亚马逊丛林,寻找古代人类影响丛林的证据。他们手持砍刀,穿越浓密的植被,抵御蜘蛛、蚊子和蜜蜂的袭击,在厄瓜多尔的Ayauchi湖附近探寻。该湖在亚马逊有着最早(约6000年前)的玉米种植记录。不过,丛林将秘
期刊
探讨那些深陷争议的遗传学研究,从智力基因、人种基因到暴力基因,尽管饱受争议,但仍有科学家选择穿越红线。  20世纪70年代,Stephen Hsu在美国爱荷华州艾姆斯市大学城长大,他的周围有很多教授们早熟的儿女。2010年前后,在俄勒冈大学尤金分校研究了数年伦理物理学的Hsu,认为DNA测序技术最终可能帮助解释是什么让那些孩子如此聪明。  Hsu并不是第一个关注智力遗传学的人,但是在中国华大基因的
期刊
细颗粒物又称细粒、细颗粒。2013年2月28日,全国科学技术名词审定委员会称PM2.5拟正式命名为“细颗粒物”。全国科学技术名词审定委员会副主任刘青表示,换名是“针对PM2.5的特殊个案而设立的”。PM2.5:指环境空气中空气动力学当量直径小于等于 2.5 μm的颗粒物,也称细颗粒物。这个值越高,就代表空气污染越严重。  什么是PM2.5?  1毫米=1000微米  大气中直径小于或  等于2.5
期刊
云沙泱漭天光闭,  河色阴沉海色凝。  崆峒异国谁能托,  萧索边心常不乐。  这是唐代诗人胡皓《大漠行》的一段,形象地描述了我国西北大漠的沙尘天气,泱(yāng)指宏大,漭(mǎng)是广阔无边,“云沙泱漭天光闭”清晰地刻画出西北地区沙尘暴的情景:狂风怒卷,黄沙飞扬,遮天蔽日,迷迷蒙蒙,使得天光失色。  在中国的古籍里,有多处关于“雨黄土”“雨黄沙”“雨土”“雨霾”的记载,最早可以追溯到公元前1
期刊