论文部分内容阅读
我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。
自然语言处理(Natural Lan-
guage Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。
为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。
纵观全球,纠出“语言异类”
语言结构世界地图(World
Atlas of Language Structures,
下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面—共计 192 种不同的语言特征。
因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语—动词—宾语”, WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾”词序。同时,只有 8.7% 的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)
WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据不足其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。)
现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因 WALS 中列举的语言特征本质而决定—有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。
至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语—宾语—动词”词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是 0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这 21 项语言特征而言,至少三分之二(即 14 项)具有数据值(即 239 种语言)。
答案揭晓:全世界最怪异的语言是——
与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克语”(Chalcatongo Mixtec),又名“大圣米格尔米斯特克语”(San Miguel el Grande Mixtec)。第二名在西伯利亚有 2.2 万人使用:涅涅茨语(Nenets)—英文里“派克大衣”或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有 1 万人使用,大多在美国俄克拉荷马州。
但是,难就难在这儿了—有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数”(Language Weirdness Index)表中也位列第 33 名。
世界上最怪异的 25 种语言:北美洲的,恰卡通戈米斯特克语、乔克托语、大梅萨迪埃格诺语(Mesa Grande Diegue?o)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumarí)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(Harar Oromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Ju|'hoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。 顺带一提,皮詹加加拉语(Pitjantjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?*)
以两项特征为例:问句与代词
“这很怪。这很怪吗?”
(This is odd. Is this odd?)区分各种语言的特征之一,是“是非问句”的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“か”[ka])。在 WALS 中,有 954 种语言具有这项值的编码,其中 584 种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗”实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为 1.4%。也就是说,一共只有 13 种语言采用这样的方式,而它们大部分都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。
但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换……这种语言就“是否”提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。
语言还需应付的另一个问题,是如何处理简单主语代词,比如“我”(I)、“他们/她们/
它们”(they)、“它”(it)。这些词称为“代词主语”(而像“有关部门负责人含糊其辞”这样的说法则是使用了名词主语)。最通常的做法,是将代词信息附加到动词上—所调查的 711 中语言中有 437 中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语一样,宁可使用特别的主语代词,而这些代词通常—或必须—在句中出现。不过,在 WALS 有编码的 711 种语言里,也只有 82 种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有 100 人使用)和穆穆耶语(尼日利亚有 40 万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,则与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。
世界上最“不怪异”的语言
如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的 21 种语言特征而言,它们相当随大流。请注意,在怪异度各级分布中,我们有一些孤立语言(比如巴斯克语)。巴斯克语很“典型”;但是另一种孤立语言,库特奈语,则相当怪异。更令人惊讶的是,汉语普通话名列 25 大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音(uvular continuants),而且在软腭鼻音方面有一些局限(普通话同英语类似,可以发出英语“song”词尾的那个音,比如汉语“颂”[sòng];但无法将这个尾音置于单词的词首发音—世界性地来看,这个特定限制实属罕见。)
而在怪异指数列表最末尾的几种语言里,有两种你听过,有 3 种你可能没听过:匈牙利语,
通常享有“语言学异类”的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有 9.5 万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purépecha,5.5 万使用者,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅 0.087 的语言,是印地语—只有一项怪异特征。
这一点,一部分说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个基本问题:如果我们调查研究主要基于大学生——即如约瑟夫·亨利希(Joseph Henrich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生—那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常”,或曰怪异,那你就要问问自己,这是否会导致研究的变化。
你讲英语,你很怪
尽管这里采用的方法没有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大部分都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS 并不具备全球约 4000 种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。
话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名 33 位,指数值 0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。)
*内容注释:
译注:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语”(Pitjantjara ['b???an?a?a]),所以这个完整的拉丁化拼写并非“有一个音节不发音”,而只是有一个音节“可以”省略且不发音。
自然语言处理(Natural Lan-
guage Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。
为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。
纵观全球,纠出“语言异类”
语言结构世界地图(World
Atlas of Language Structures,
下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面—共计 192 种不同的语言特征。
因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语—动词—宾语”, WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾”词序。同时,只有 8.7% 的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)
WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据不足其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。)
现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因 WALS 中列举的语言特征本质而决定—有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。
至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语—宾语—动词”词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是 0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这 21 项语言特征而言,至少三分之二(即 14 项)具有数据值(即 239 种语言)。
答案揭晓:全世界最怪异的语言是——
与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克语”(Chalcatongo Mixtec),又名“大圣米格尔米斯特克语”(San Miguel el Grande Mixtec)。第二名在西伯利亚有 2.2 万人使用:涅涅茨语(Nenets)—英文里“派克大衣”或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有 1 万人使用,大多在美国俄克拉荷马州。
但是,难就难在这儿了—有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数”(Language Weirdness Index)表中也位列第 33 名。
世界上最怪异的 25 种语言:北美洲的,恰卡通戈米斯特克语、乔克托语、大梅萨迪埃格诺语(Mesa Grande Diegue?o)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumarí)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(Harar Oromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Ju|'hoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。 顺带一提,皮詹加加拉语(Pitjantjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?*)
以两项特征为例:问句与代词
“这很怪。这很怪吗?”
(This is odd. Is this odd?)区分各种语言的特征之一,是“是非问句”的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“か”[ka])。在 WALS 中,有 954 种语言具有这项值的编码,其中 584 种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗”实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为 1.4%。也就是说,一共只有 13 种语言采用这样的方式,而它们大部分都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。
但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换……这种语言就“是否”提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。
语言还需应付的另一个问题,是如何处理简单主语代词,比如“我”(I)、“他们/她们/
它们”(they)、“它”(it)。这些词称为“代词主语”(而像“有关部门负责人含糊其辞”这样的说法则是使用了名词主语)。最通常的做法,是将代词信息附加到动词上—所调查的 711 中语言中有 437 中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语一样,宁可使用特别的主语代词,而这些代词通常—或必须—在句中出现。不过,在 WALS 有编码的 711 种语言里,也只有 82 种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有 100 人使用)和穆穆耶语(尼日利亚有 40 万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,则与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。
世界上最“不怪异”的语言
如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的 21 种语言特征而言,它们相当随大流。请注意,在怪异度各级分布中,我们有一些孤立语言(比如巴斯克语)。巴斯克语很“典型”;但是另一种孤立语言,库特奈语,则相当怪异。更令人惊讶的是,汉语普通话名列 25 大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音(uvular continuants),而且在软腭鼻音方面有一些局限(普通话同英语类似,可以发出英语“song”词尾的那个音,比如汉语“颂”[sòng];但无法将这个尾音置于单词的词首发音—世界性地来看,这个特定限制实属罕见。)
而在怪异指数列表最末尾的几种语言里,有两种你听过,有 3 种你可能没听过:匈牙利语,
通常享有“语言学异类”的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有 9.5 万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purépecha,5.5 万使用者,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅 0.087 的语言,是印地语—只有一项怪异特征。
这一点,一部分说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个基本问题:如果我们调查研究主要基于大学生——即如约瑟夫·亨利希(Joseph Henrich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生—那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常”,或曰怪异,那你就要问问自己,这是否会导致研究的变化。
你讲英语,你很怪
尽管这里采用的方法没有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大部分都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS 并不具备全球约 4000 种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。
话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名 33 位,指数值 0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。)
*内容注释:
译注:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语”(Pitjantjara ['b???an?a?a]),所以这个完整的拉丁化拼写并非“有一个音节不发音”,而只是有一个音节“可以”省略且不发音。