论文部分内容阅读
一、朱莉叶斯究竟是谁?
200多年前的英国,曾经发生过一件轰动一时的事情。当时的英国有份杂志连续刊登了一组署名为“朱莉叶斯”的文章。文章是用信函的形式撰写的。文中,作者对英国国王乔治三世周围的一些大臣和贵族进行了猛烈的抨击,在全国上下掀起了轩然大波。那些挨骂的王公贵族气急败坏,叫嚣着要找这个胆大包天的作者算帐,但是这个作者很懂得保护自己,“朱莉叶斯”只不过是他杜撰的笔名,作者究竟是何方神圣,姓甚名谁,是何职业背景,谁也无从知晓,就连杂志社对这位神秘人物也是只见其文不见其人,所以那些丢尽颜面的“上层人士”调查了很久也找不到任何线索,除了无可奈何地跳脚骂街也只能不了了之。
耐人寻味的是,此事件尘封了若干年后又被有关人士重新关注。这是因为这组文章被有心人专门收集整理,并以《朱莉叶斯信函》的名称正式出版。当时过境迁的人们冷静理智地重读这些文章时,许多人在深刻反思中意识到朱莉叶斯作品的文学价值,专业人士认为它们在英国文学史上应该占有一席之地。然而要明确这一点,无法确定的作者身份成为首当其冲的问题。为了解开这个谜团,许多人展开了含义与前迥然不同的大量调查,并获得一些线索,缩小了排查范围。比如在19世纪末,大家将注意力集中到一个名叫弗朗西斯的爵士身上,认为他很可能就是那个“朱莉叶斯”,不过仍没有确凿的、令人信服的证据来证明文章出自他手。
20世纪60年代,瑞士的文史专家爱尔加哈德开始用统计学的方法研究这个问题。他对《朱莉叶斯信函》中500个单词的出现规律进行研究,并仔细分析了50组同义词的使用规律,然后将这些与200多年前的300多个作家的写作习惯进行比较,发现只有弗朗西斯与《朱莉叶斯信函》的作者在写作风格上一致,神秘的批评家弗朗西斯终于浮出水面。
二、他们真是抢劫犯吗?
这是一个真实的故事。故事的地点发生在美国加利福尼亚州圣彼得罗市的一个偏僻小胡同里,故事的内容是一名老年妇女被强盗抢劫,这里的故事细节无须赘述,故事的结果是当时有个目击者,看见从出事地点窜出一个梳着马尾的白人女子,跳上一辆等着的黄色汽车,而开车的是一个留着大胡子的黑人,两人迅速逃离现场。
抢劫的两名凶犯究竟是谁?侦缉人员在侦察过程中查到了有作案可能的柯林斯夫妇。这对夫妇中柯林斯是个留着大胡子的黑人,他,的老婆是个白人,平时就喜欢梳马尾。从外貌上完全符合目击者的叙述,但柯林斯夫妇却矢口否认自己与此案有关。由于侦查人员也没有更有力的证据,所以法院聘请一所大学的一位有名的概率论专家来作鉴定。
这位数学家在法庭上侃侃而谈,他根据自己擅长的概率理论进行推测说明。他说,在圣彼得罗市大街上碰到黄颜色的汽车比起碰到其他颜色的汽车,其可能性约为1/10;另外看到车内同时坐着一个黑皮肤和一个白人妇女的可能性约为1/1000;如果再把“马尾”和“大胡子”的因素考虑进去,那么同时满足目击者叙述的可能性约为1/12000000,也就是说,当时加利福尼亚州总人口1200万居民中约只有一对符合条件,而柯林斯夫妇这一对就在眼前。换句话说,基本可以肯定柯林斯夫妇就是抢劫犯。当时的陪审员相信了这位鉴定人的“精确”推理,于是大家一致认定两位被告有罪。
但身陷囹圄长达3年的柯林斯夫妇仍然一直坚决否认,并且从未停止上诉。这终于引起了社会舆论的关注,也促使最高法院作出决定,对此案重新进行审理。
为了使案件的重新审理更具科学可靠性,最高法院委派的法官雷蒙·沙利文也是一位概率论行家,经过认真计算,他得出的结论是:还存在着41%的其他可能性,这种可能就是州里还有另外一对男女符合目击者所说的这些特征。也就是说,原鉴定人的推断中存在着明显的漏洞和错误。而故事的发展完全证实了这一点,某一日,真正的抢劫犯落网,而且的确是另有其人。
这则故事给我们的启发是:缺乏严密依据的纯理论推理,尽管有时能让大多数人信服,但仍有可能会和巧合的事实存在相当距离,这则事例便是最好的证明。司法上的判断只要不是铁证如山,就存在着疏忽和错误的可能性,所以一定要慎之又慎,因为这也是由统计学决定的!
三、《红楼梦》的作者有几个?
《红楼梦》是我国四大古典名著之一,在中国的文学史上占有重要的地位,被誉为中国最具文学成就也最具影响的古典小说,是中国长篇小说的巅峰之作。
但由于种种历史原因,这部杰作的最终著作归属权一直没有得到确定。长期以来,人们普遍认为《红楼梦》的前80回是由曹雪芹所著(这是得到共识的部分),而后40回是由高鹗续写完成,但很多红学专家学者对此有不同看法,并且就此问题争论不休。而随着时间的推移和计算机技术的发展,数据统计逐步进入文学领域,于是大多数人认可的结论遭到了计算机强有力的挑战。
1981年,首届国际《红楼梦》研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,他提出了一个惊人的发现:剔除人为的情感因素,根据逻辑严密、计算准确的计算机的判断,《红楼梦》的120回都是由曹雪芹一个人完成的。原来陈炳藻是从字、词出现频率入手,他把曹雪芹常用的句式、词语和搭配方法等,作为样本输入到计算机里,通过计算机把《红楼梦》的前80回和后40回进行统计、处理、分析、对照、比较,发现它们的联系程度高达80%,由此他断定,《红楼梦》前后120回均系曹雪芹所作。
应该说,他的这个推断方法是相对可靠,推断结论也是有一定依据的。因为每个作家的经历不同,文风不同,使用语言的习惯也就不同。语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现。这种风格可以在一定程度上通过数量特征来刻画。例如,句长和词长可以代表作者遣词造句的风格;此外,字、词在作品中出现的频率也是个人风格的体现,而两个作者在这些方面都极端相似的可能性显然不是很大。而陈炳藻正是利用计算机分别计算前后两部分作品的平均词长和平均句长,对两部分作品使用的字、词、句的频率进行统计研究,并最终根据关联度确定这两部分完全是一个作者的统一风格。通俗地说,在计算机的眼里,《红楼梦》的作者只有一个,那就是曹雪芹。
1987年,我国学者李贤平运用了47个虚字在《红楼梦》的每一回中出现的频率,通过计算距离等各种统计方法,探索了这部书各回写作风格的接近程度,结果发现前后统一的测量度令人信服,所以他推断《红楼梦》的作者出自曹雪芹一人之手,从而用科学的手段证实了一些“红学家”们论断的正确性,得到了越来越多的“红学”人士的认同,这是中国文学史上的争议首次使用数学方法得到了判断证明的事例。
目前,利用计算机和统计学原理进行各个领域的数据处理,因其研究的精细性,思路的拓展性,结论的合理性,已经成为一种新颖科学的研究方法,引起越来越多的专业研究人员的重视,并越来越频繁地被使用。
200多年前的英国,曾经发生过一件轰动一时的事情。当时的英国有份杂志连续刊登了一组署名为“朱莉叶斯”的文章。文章是用信函的形式撰写的。文中,作者对英国国王乔治三世周围的一些大臣和贵族进行了猛烈的抨击,在全国上下掀起了轩然大波。那些挨骂的王公贵族气急败坏,叫嚣着要找这个胆大包天的作者算帐,但是这个作者很懂得保护自己,“朱莉叶斯”只不过是他杜撰的笔名,作者究竟是何方神圣,姓甚名谁,是何职业背景,谁也无从知晓,就连杂志社对这位神秘人物也是只见其文不见其人,所以那些丢尽颜面的“上层人士”调查了很久也找不到任何线索,除了无可奈何地跳脚骂街也只能不了了之。
耐人寻味的是,此事件尘封了若干年后又被有关人士重新关注。这是因为这组文章被有心人专门收集整理,并以《朱莉叶斯信函》的名称正式出版。当时过境迁的人们冷静理智地重读这些文章时,许多人在深刻反思中意识到朱莉叶斯作品的文学价值,专业人士认为它们在英国文学史上应该占有一席之地。然而要明确这一点,无法确定的作者身份成为首当其冲的问题。为了解开这个谜团,许多人展开了含义与前迥然不同的大量调查,并获得一些线索,缩小了排查范围。比如在19世纪末,大家将注意力集中到一个名叫弗朗西斯的爵士身上,认为他很可能就是那个“朱莉叶斯”,不过仍没有确凿的、令人信服的证据来证明文章出自他手。
20世纪60年代,瑞士的文史专家爱尔加哈德开始用统计学的方法研究这个问题。他对《朱莉叶斯信函》中500个单词的出现规律进行研究,并仔细分析了50组同义词的使用规律,然后将这些与200多年前的300多个作家的写作习惯进行比较,发现只有弗朗西斯与《朱莉叶斯信函》的作者在写作风格上一致,神秘的批评家弗朗西斯终于浮出水面。
二、他们真是抢劫犯吗?
这是一个真实的故事。故事的地点发生在美国加利福尼亚州圣彼得罗市的一个偏僻小胡同里,故事的内容是一名老年妇女被强盗抢劫,这里的故事细节无须赘述,故事的结果是当时有个目击者,看见从出事地点窜出一个梳着马尾的白人女子,跳上一辆等着的黄色汽车,而开车的是一个留着大胡子的黑人,两人迅速逃离现场。
抢劫的两名凶犯究竟是谁?侦缉人员在侦察过程中查到了有作案可能的柯林斯夫妇。这对夫妇中柯林斯是个留着大胡子的黑人,他,的老婆是个白人,平时就喜欢梳马尾。从外貌上完全符合目击者的叙述,但柯林斯夫妇却矢口否认自己与此案有关。由于侦查人员也没有更有力的证据,所以法院聘请一所大学的一位有名的概率论专家来作鉴定。
这位数学家在法庭上侃侃而谈,他根据自己擅长的概率理论进行推测说明。他说,在圣彼得罗市大街上碰到黄颜色的汽车比起碰到其他颜色的汽车,其可能性约为1/10;另外看到车内同时坐着一个黑皮肤和一个白人妇女的可能性约为1/1000;如果再把“马尾”和“大胡子”的因素考虑进去,那么同时满足目击者叙述的可能性约为1/12000000,也就是说,当时加利福尼亚州总人口1200万居民中约只有一对符合条件,而柯林斯夫妇这一对就在眼前。换句话说,基本可以肯定柯林斯夫妇就是抢劫犯。当时的陪审员相信了这位鉴定人的“精确”推理,于是大家一致认定两位被告有罪。
但身陷囹圄长达3年的柯林斯夫妇仍然一直坚决否认,并且从未停止上诉。这终于引起了社会舆论的关注,也促使最高法院作出决定,对此案重新进行审理。
为了使案件的重新审理更具科学可靠性,最高法院委派的法官雷蒙·沙利文也是一位概率论行家,经过认真计算,他得出的结论是:还存在着41%的其他可能性,这种可能就是州里还有另外一对男女符合目击者所说的这些特征。也就是说,原鉴定人的推断中存在着明显的漏洞和错误。而故事的发展完全证实了这一点,某一日,真正的抢劫犯落网,而且的确是另有其人。
这则故事给我们的启发是:缺乏严密依据的纯理论推理,尽管有时能让大多数人信服,但仍有可能会和巧合的事实存在相当距离,这则事例便是最好的证明。司法上的判断只要不是铁证如山,就存在着疏忽和错误的可能性,所以一定要慎之又慎,因为这也是由统计学决定的!
三、《红楼梦》的作者有几个?
《红楼梦》是我国四大古典名著之一,在中国的文学史上占有重要的地位,被誉为中国最具文学成就也最具影响的古典小说,是中国长篇小说的巅峰之作。
但由于种种历史原因,这部杰作的最终著作归属权一直没有得到确定。长期以来,人们普遍认为《红楼梦》的前80回是由曹雪芹所著(这是得到共识的部分),而后40回是由高鹗续写完成,但很多红学专家学者对此有不同看法,并且就此问题争论不休。而随着时间的推移和计算机技术的发展,数据统计逐步进入文学领域,于是大多数人认可的结论遭到了计算机强有力的挑战。
1981年,首届国际《红楼梦》研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,他提出了一个惊人的发现:剔除人为的情感因素,根据逻辑严密、计算准确的计算机的判断,《红楼梦》的120回都是由曹雪芹一个人完成的。原来陈炳藻是从字、词出现频率入手,他把曹雪芹常用的句式、词语和搭配方法等,作为样本输入到计算机里,通过计算机把《红楼梦》的前80回和后40回进行统计、处理、分析、对照、比较,发现它们的联系程度高达80%,由此他断定,《红楼梦》前后120回均系曹雪芹所作。
应该说,他的这个推断方法是相对可靠,推断结论也是有一定依据的。因为每个作家的经历不同,文风不同,使用语言的习惯也就不同。语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现。这种风格可以在一定程度上通过数量特征来刻画。例如,句长和词长可以代表作者遣词造句的风格;此外,字、词在作品中出现的频率也是个人风格的体现,而两个作者在这些方面都极端相似的可能性显然不是很大。而陈炳藻正是利用计算机分别计算前后两部分作品的平均词长和平均句长,对两部分作品使用的字、词、句的频率进行统计研究,并最终根据关联度确定这两部分完全是一个作者的统一风格。通俗地说,在计算机的眼里,《红楼梦》的作者只有一个,那就是曹雪芹。
1987年,我国学者李贤平运用了47个虚字在《红楼梦》的每一回中出现的频率,通过计算距离等各种统计方法,探索了这部书各回写作风格的接近程度,结果发现前后统一的测量度令人信服,所以他推断《红楼梦》的作者出自曹雪芹一人之手,从而用科学的手段证实了一些“红学家”们论断的正确性,得到了越来越多的“红学”人士的认同,这是中国文学史上的争议首次使用数学方法得到了判断证明的事例。
目前,利用计算机和统计学原理进行各个领域的数据处理,因其研究的精细性,思路的拓展性,结论的合理性,已经成为一种新颖科学的研究方法,引起越来越多的专业研究人员的重视,并越来越频繁地被使用。