论文部分内容阅读
译/裴淑娟
寻找来自外星球文明的信号,为什么不从地球上一些已知的非人类通信系统着手呢?鲸数百万年前就已经有了全球通信系统——这比智人的出现都要早。蜜蜂在某种程度上通过舞蹈交流,很久之前就通过民主辩论的方式决定筑巢的最佳地点。这个时间比人类民主政治体系的产生还要早数百万年呢。类似的例子还有很多。据我所知,研究动物交流体系的人都会得出一致结论:这些物种比人类预想的“更善言辞”。
通过研究动物通信,我和同事研发出一种新的探测器,一种“通信情报”过滤器,来判断某个太空信号是否来自先进文明。SETI(搜寻地外文明学会)已经开始寻找窄频带频率的无线电传输及快速闪烁的光学信号。根据已有的天体物理学知识,此类信号传输显然是人为的。他们的发现证明了星际间信号传输技术存在的可能性。SETI的研究一般会抛开宽频带通信信号及较慢的光学脉冲,因为还不太清楚它们的来源。这些信号有可能来自外星人,也有可能来自自然界的无线电波,我们目前还不能很好地区分它们。
简单地说,我们可能收到过来自外星人的信息,但因未能识别它们的信号,就将其忽略了。这或许能解释为什么我们在过去50年一直未能探测到星际间的通信信号。
通过15年的努力,我和同事找到了一种更好的方法。我们尝试把信息理论应用到人类和动物的通信系统上,结果发现某些物种能够传达复杂的思想,虽然目前还不知道它们具体在说些什么。使用“通信系统”这个术语,目的在于不去预设其他物种是否具有人类意义上的语言。复杂的通信遵循类似于语法且能辨别智能内容的通用规则。如果有足够大的信息样本,我们可以量化其复杂度或语法结构。在信息理论的数学中,该结构被称为“条件信息熵”,是由通信基本单元(例如字母和音素) 之间的数学关系构成的。日常话语中,这种结构被识别为语法,从更基本的层面上讲,可被视为声音转化成词和句子的包装。在加利福尼亚州山景城的SETI研究所,我们已经开始从SETI数据库中寻找这种结构。
我和我的同事布伦达·麦科恩及加利福尼亚大学戴维斯分校的肖恩·F.汉泽决定使用易于分类的声音信号研究既具有社会复杂性又高度依赖声学通信的物种。我们的前三个主题物种分别为瓶鼻海豚、松鼠猴和座头鲸。
齐普夫定律是从字母、单词和音素的早期统计研究中发现的人类语言学的一个特征。它以哈佛大学语言学家乔治·齐普命名。在英语文本中,“e”出现的频次要高于“t”,而“t”出现的频次又高于“a”,最不常出现的字母是“q”。如果以频率的降序列出从“e”到“q”的字母,并在双对数图上绘制它们的频率,则可以用4 5°线(一条斜率为-1的线)拟合这些值。日语、德语、印地语和其他几十种语言对话中的字母、单词或音素亦是如此。婴儿的咿呀学语并不遵循齐普夫定律,它的斜率小于-1,因为他们的声音几乎是随机溢出的。但是随着孩子们的语言学习,斜度逐渐倾斜,并在大约24个月的时候达到-1。
数学语言学家认为,这个-1斜率表明给定系列的声音或书写符号包含足够的复杂性来构成语言。这是个必要但不充分条件。齐普夫称,形成这个-1斜率的原因是“最小努力原则”。它在發射器(想要以最少能量发送信号)与接收器(想要最多冗余以确保接收到完整信息)之间取得平衡。
信息理论应用的关键是隔离信令单元。例如,只要在摩尔斯电码中绘制所有的点和破折号,即可得到约为-0.2的齐普夫斜率。但是,如果一个基本单位有多个点和短画线,斜率会向-1倾斜,这反映了字母表中的字母在该系统中是如何被编码的。由此,人们可以逆向设计原始单位的意义。
大多数语言学家曾认为,齐普夫定律只是人类语言的特征。但是我们在绘制成年海豚哨音的发生频率时,发现它们也遵循了齐普夫定律!这让我们异常兴奋。后来,两只小宽吻海豚在加利福尼亚的海洋世界出生,我们记录了它们的婴儿哨音,发现它们和咿呀学语的人类婴儿有着相同的齐普夫斜率。婴儿海豚学习它们的哨音,并以跟人类宝宝学习语言相同的方式学习它们的通信系统。当海豚长到12个月的时候,它们哨音的发生频率分布也达到了-1斜率。
我们还在探究宽吻海豚是否和鲸一样,拥有内部复杂性接近人类语言的通信系统。这种复杂性使通信具有复原能力。在环境噪声、干扰障碍物和其他影响信号传播的效应下,任何交换信息的生物都必须具备这种能力。人类语言的构造为冗余提供了条件。在最基本的层次上,这种结构决定了给定字母出现的概率。如果我告诉你我在想一个单词,你可能会猜到第一个字母是“t”,因为这是英语中最常见的单词首字母。你的猜测是安全的,但没什么信息含量。相反,如果你猜到的字母是“q”,并且是正确的,你会得到一些真正的信息,假如我正在想的这个词确实是
以字母“q”开头的话。
现在进一步来讲。如果我告诉你,我正在想的字母是首字母为“q”的单词的第二个字母,你会立刻猜到字母“u”。为什么?因为你知道在英语中这两个字母一起出现的概率几乎是100%。为了猜测空缺内容,你不仅使用了字母出现的概率,还运用了这两个字母之间的条件概率——在字母“q”给定的情况下,“u”出现的概率。每当我们的大脑需要修复信息传输中的错误,如低墨副本文件上的褪色文本或嘈杂电话呼叫中的混乱话语时,就会使用条件概率。 对于英语单词,条件概率在一行中可以连续指定多达9个单词。如果缺少一个单词,你可以根据上下文猜测出来;缺少两个单词,你仍然可以根据上下文将其恢复。举个简单的例子,一句话中缺少一个单词:“How are___doing today?”我们可以很容易地根据已知的英语规则填写出缺少的单词“you”。现在再来看一个句子中缺少两个词的例子:“How___ ___ doing today?”这句话可以是:“How is Joe doing today ?” 但也不乏其他可能性。显然,缺失的单词越多,根据上下文填充它们的难度就越大,它们之间的条件概率就越低。对于人类的大多数书面语言, 在一行中缺失约9个单词时,条件依赖性就会消失。当有10个单词缺失时,就真的没有线索来推测缺失的内容可能是什么了。
我们在动物通信系统中发现了同样的条件概率,例如我们和阿拉斯加鲸基金会的弗雷德·夏普在阿拉斯加东南部记录座头鲸声音时的发现。座头鲸因其歌声而出名,通常会在夏威夷交配时歌唱,这与它们在阿拉斯加的叫声(驱赶鱼群进入气泡网的呼叫和社交呼叫)极为不同。我们分别记录了有无船舶噪声两种情况下的座头鲸叫声,并计算了海洋信道的静态作用,然后用信息理论量化鲸鱼在何种程度下会减慢其发声,以确保信息的无误接收。
正如预期的那样,当有船的噪音时,鲸鱼减慢了它们的发声速度,正如人们打电话时背景中带有噪音时所做的那样。但是它们的传输速度只是减慢了理论上要求的3/5,以确保对方收到的整个信息无误。它们是如何做到不按照噪音水平要求来减慢声音的?我们思考了一段时间,意识到它们的通信系统一定有足够的规则结构来恢复最后2/5的信号。座头鲸是利用了它们声音等价词之间的条件概率。如此一来,不必接收全部信息,就能够填补空缺。
我们还发现了海豚交流的内部结构。它们与座头鲸最大的区别是,海豚有大约50种核心的信号类型,而座头鲸有几百种。我们目前正在收集数据,以确定座头鲸通信系统的最高阶熵。
有天文學家用我们的方法区分来自天体的自然信号与来自智慧生命的信号。天文学家乔瑟琳·贝尔·伯勒尔和安东尼·休伊什最初在1967年发现恒星脉冲星的信号时,媒体将它们称为“LGMs”(小绿人)。因为这些无线电源发出的脉冲非常规律,一些科学家猜测它们可能来自非常先进的外星人。我们在澳大利亚国家望远镜中心西蒙·约翰斯顿的帮助下重新分析了帆船座脉冲星的脉冲,发现脉冲星信号的齐普夫斜率约为-0.3。这不同于我们所知的任何一种语言。此外,我们还发现这些脉冲信号内很少存在或根本没有条件概率结构。现在,我们已经知道脉冲星
是超新星的天然残余物。因此,信息理论可以轻易地将推定的智能信号和自然信号区分开。
我们目前正在分析从SETI研究所的艾伦望远镜阵列获得的微波数据,该阵列由在1千兆赫至1 0千兆赫的频带中观测的42个单独的望远镜组成。除了寻找窄频带无线电载波的常规技术之外,我们现在开始应用信息理论测量。这项工作是与SETI研究所的格里·哈普、乔恩·理查兹和吉尔·塔特合作进行的。假如我们能够找到遵循齐普夫定律的信号,就会继续前进,并在信号内寻找语法结构,以量化候选消息实际上的复杂性。
为了传播信息,即便是非常先进的地外文明,也必须遵守信息理论的规则。由于缺乏共同的符号(与座头鲸相同的问题),我们可能无法解读这样的信息,但是能够从中了解到它们的通信系统以及它们思维过程的复杂性。如果SETI信号的条件概率是20阶,则不仅信号源是人为的,而且它反映的是比地球上任何语言都复杂得多的语言。我们后续将会对外星物种思维过程的复杂性进行定量测量。
寻找来自外星球文明的信号,为什么不从地球上一些已知的非人类通信系统着手呢?鲸数百万年前就已经有了全球通信系统——这比智人的出现都要早。蜜蜂在某种程度上通过舞蹈交流,很久之前就通过民主辩论的方式决定筑巢的最佳地点。这个时间比人类民主政治体系的产生还要早数百万年呢。类似的例子还有很多。据我所知,研究动物交流体系的人都会得出一致结论:这些物种比人类预想的“更善言辞”。
通过研究动物通信,我和同事研发出一种新的探测器,一种“通信情报”过滤器,来判断某个太空信号是否来自先进文明。SETI(搜寻地外文明学会)已经开始寻找窄频带频率的无线电传输及快速闪烁的光学信号。根据已有的天体物理学知识,此类信号传输显然是人为的。他们的发现证明了星际间信号传输技术存在的可能性。SETI的研究一般会抛开宽频带通信信号及较慢的光学脉冲,因为还不太清楚它们的来源。这些信号有可能来自外星人,也有可能来自自然界的无线电波,我们目前还不能很好地区分它们。
简单地说,我们可能收到过来自外星人的信息,但因未能识别它们的信号,就将其忽略了。这或许能解释为什么我们在过去50年一直未能探测到星际间的通信信号。
通过15年的努力,我和同事找到了一种更好的方法。我们尝试把信息理论应用到人类和动物的通信系统上,结果发现某些物种能够传达复杂的思想,虽然目前还不知道它们具体在说些什么。使用“通信系统”这个术语,目的在于不去预设其他物种是否具有人类意义上的语言。复杂的通信遵循类似于语法且能辨别智能内容的通用规则。如果有足够大的信息样本,我们可以量化其复杂度或语法结构。在信息理论的数学中,该结构被称为“条件信息熵”,是由通信基本单元(例如字母和音素) 之间的数学关系构成的。日常话语中,这种结构被识别为语法,从更基本的层面上讲,可被视为声音转化成词和句子的包装。在加利福尼亚州山景城的SETI研究所,我们已经开始从SETI数据库中寻找这种结构。
我和我的同事布伦达·麦科恩及加利福尼亚大学戴维斯分校的肖恩·F.汉泽决定使用易于分类的声音信号研究既具有社会复杂性又高度依赖声学通信的物种。我们的前三个主题物种分别为瓶鼻海豚、松鼠猴和座头鲸。
齐普夫定律是从字母、单词和音素的早期统计研究中发现的人类语言学的一个特征。它以哈佛大学语言学家乔治·齐普命名。在英语文本中,“e”出现的频次要高于“t”,而“t”出现的频次又高于“a”,最不常出现的字母是“q”。如果以频率的降序列出从“e”到“q”的字母,并在双对数图上绘制它们的频率,则可以用4 5°线(一条斜率为-1的线)拟合这些值。日语、德语、印地语和其他几十种语言对话中的字母、单词或音素亦是如此。婴儿的咿呀学语并不遵循齐普夫定律,它的斜率小于-1,因为他们的声音几乎是随机溢出的。但是随着孩子们的语言学习,斜度逐渐倾斜,并在大约24个月的时候达到-1。
数学语言学家认为,这个-1斜率表明给定系列的声音或书写符号包含足够的复杂性来构成语言。这是个必要但不充分条件。齐普夫称,形成这个-1斜率的原因是“最小努力原则”。它在發射器(想要以最少能量发送信号)与接收器(想要最多冗余以确保接收到完整信息)之间取得平衡。
信息理论应用的关键是隔离信令单元。例如,只要在摩尔斯电码中绘制所有的点和破折号,即可得到约为-0.2的齐普夫斜率。但是,如果一个基本单位有多个点和短画线,斜率会向-1倾斜,这反映了字母表中的字母在该系统中是如何被编码的。由此,人们可以逆向设计原始单位的意义。
大多数语言学家曾认为,齐普夫定律只是人类语言的特征。但是我们在绘制成年海豚哨音的发生频率时,发现它们也遵循了齐普夫定律!这让我们异常兴奋。后来,两只小宽吻海豚在加利福尼亚的海洋世界出生,我们记录了它们的婴儿哨音,发现它们和咿呀学语的人类婴儿有着相同的齐普夫斜率。婴儿海豚学习它们的哨音,并以跟人类宝宝学习语言相同的方式学习它们的通信系统。当海豚长到12个月的时候,它们哨音的发生频率分布也达到了-1斜率。
我们还在探究宽吻海豚是否和鲸一样,拥有内部复杂性接近人类语言的通信系统。这种复杂性使通信具有复原能力。在环境噪声、干扰障碍物和其他影响信号传播的效应下,任何交换信息的生物都必须具备这种能力。人类语言的构造为冗余提供了条件。在最基本的层次上,这种结构决定了给定字母出现的概率。如果我告诉你我在想一个单词,你可能会猜到第一个字母是“t”,因为这是英语中最常见的单词首字母。你的猜测是安全的,但没什么信息含量。相反,如果你猜到的字母是“q”,并且是正确的,你会得到一些真正的信息,假如我正在想的这个词确实是
以字母“q”开头的话。
现在进一步来讲。如果我告诉你,我正在想的字母是首字母为“q”的单词的第二个字母,你会立刻猜到字母“u”。为什么?因为你知道在英语中这两个字母一起出现的概率几乎是100%。为了猜测空缺内容,你不仅使用了字母出现的概率,还运用了这两个字母之间的条件概率——在字母“q”给定的情况下,“u”出现的概率。每当我们的大脑需要修复信息传输中的错误,如低墨副本文件上的褪色文本或嘈杂电话呼叫中的混乱话语时,就会使用条件概率。 对于英语单词,条件概率在一行中可以连续指定多达9个单词。如果缺少一个单词,你可以根据上下文猜测出来;缺少两个单词,你仍然可以根据上下文将其恢复。举个简单的例子,一句话中缺少一个单词:“How are___doing today?”我们可以很容易地根据已知的英语规则填写出缺少的单词“you”。现在再来看一个句子中缺少两个词的例子:“How___ ___ doing today?”这句话可以是:“How is Joe doing today ?” 但也不乏其他可能性。显然,缺失的单词越多,根据上下文填充它们的难度就越大,它们之间的条件概率就越低。对于人类的大多数书面语言, 在一行中缺失约9个单词时,条件依赖性就会消失。当有10个单词缺失时,就真的没有线索来推测缺失的内容可能是什么了。
我们在动物通信系统中发现了同样的条件概率,例如我们和阿拉斯加鲸基金会的弗雷德·夏普在阿拉斯加东南部记录座头鲸声音时的发现。座头鲸因其歌声而出名,通常会在夏威夷交配时歌唱,这与它们在阿拉斯加的叫声(驱赶鱼群进入气泡网的呼叫和社交呼叫)极为不同。我们分别记录了有无船舶噪声两种情况下的座头鲸叫声,并计算了海洋信道的静态作用,然后用信息理论量化鲸鱼在何种程度下会减慢其发声,以确保信息的无误接收。
正如预期的那样,当有船的噪音时,鲸鱼减慢了它们的发声速度,正如人们打电话时背景中带有噪音时所做的那样。但是它们的传输速度只是减慢了理论上要求的3/5,以确保对方收到的整个信息无误。它们是如何做到不按照噪音水平要求来减慢声音的?我们思考了一段时间,意识到它们的通信系统一定有足够的规则结构来恢复最后2/5的信号。座头鲸是利用了它们声音等价词之间的条件概率。如此一来,不必接收全部信息,就能够填补空缺。
我们还发现了海豚交流的内部结构。它们与座头鲸最大的区别是,海豚有大约50种核心的信号类型,而座头鲸有几百种。我们目前正在收集数据,以确定座头鲸通信系统的最高阶熵。
有天文學家用我们的方法区分来自天体的自然信号与来自智慧生命的信号。天文学家乔瑟琳·贝尔·伯勒尔和安东尼·休伊什最初在1967年发现恒星脉冲星的信号时,媒体将它们称为“LGMs”(小绿人)。因为这些无线电源发出的脉冲非常规律,一些科学家猜测它们可能来自非常先进的外星人。我们在澳大利亚国家望远镜中心西蒙·约翰斯顿的帮助下重新分析了帆船座脉冲星的脉冲,发现脉冲星信号的齐普夫斜率约为-0.3。这不同于我们所知的任何一种语言。此外,我们还发现这些脉冲信号内很少存在或根本没有条件概率结构。现在,我们已经知道脉冲星
是超新星的天然残余物。因此,信息理论可以轻易地将推定的智能信号和自然信号区分开。
我们目前正在分析从SETI研究所的艾伦望远镜阵列获得的微波数据,该阵列由在1千兆赫至1 0千兆赫的频带中观测的42个单独的望远镜组成。除了寻找窄频带无线电载波的常规技术之外,我们现在开始应用信息理论测量。这项工作是与SETI研究所的格里·哈普、乔恩·理查兹和吉尔·塔特合作进行的。假如我们能够找到遵循齐普夫定律的信号,就会继续前进,并在信号内寻找语法结构,以量化候选消息实际上的复杂性。
为了传播信息,即便是非常先进的地外文明,也必须遵守信息理论的规则。由于缺乏共同的符号(与座头鲸相同的问题),我们可能无法解读这样的信息,但是能够从中了解到它们的通信系统以及它们思维过程的复杂性。如果SETI信号的条件概率是20阶,则不仅信号源是人为的,而且它反映的是比地球上任何语言都复杂得多的语言。我们后续将会对外星物种思维过程的复杂性进行定量测量。