妙用统计解谜题

来源 :发明与创新(综合版) | 被引量 : 0次 | 上传用户:wojiushishashou47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、朱莉叶斯究竟是谁?
  
  200多年前的英国,曾经发生过一件轰动一时的事情。当时的英国有份杂志连续刊登了一组署名为“朱莉叶斯”的文章。文章是用信函的形式撰写的。文中,作者对英国国王乔治三世周围的一些大臣和贵族进行了猛烈的抨击,在全国上下掀起了轩然大波。那些挨骂的王公贵族气急败坏,叫嚣着要找这个胆大包天的作者算帐,但是这个作者很懂得保护自己,“朱莉叶斯”只不过是他杜撰的笔名,作者究竟是何方神圣,姓甚名谁,是何职业背景,谁也无从知晓,就连杂志社对这位神秘人物也是只见其文不见其人,所以那些丢尽颜面的“上层人士”调查了很久也找不到任何线索,除了无可奈何地跳脚骂街也只能不了了之。
  耐人寻味的是,此事件尘封了若干年后又被有关人士重新关注。这是因为这组文章被有心人专门收集整理,并以《朱莉叶斯信函》的名称正式出版。当时过境迁的人们冷静理智地重读这些文章时,许多人在深刻反思中意识到朱莉叶斯作品的文学价值,专业人士认为它们在英国文学史上应该占有一席之地。然而要明确这一点,无法确定的作者身份成为首当其冲的问题。为了解开这个谜团,许多人展开了含义与前迥然不同的大量调查,并获得一些线索,缩小了排查范围。比如在19世纪末,大家将注意力集中到一个名叫弗朗西斯的爵士身上,认为他很可能就是那个“朱莉叶斯”,不过仍没有确凿的、令人信服的证据来证明文章出自他手。
  20世纪60年代,瑞士的文史专家爱尔加哈德开始用统计学的方法研究这个问题。他对《朱莉叶斯信函》中500个单词的出现规律进行研究,并仔细分析了50组同义词的使用规律,然后将这些与200多年前的300多个作家的写作习惯进行比较,发现只有弗朗西斯与《朱莉叶斯信函》的作者在写作风格上一致,神秘的批评家弗朗西斯终于浮出水面。
  
  二、他们真是抢劫犯吗?
  
  这是一个真实的故事。故事的地点发生在美国加利福尼亚州圣彼得罗市的一个偏僻小胡同里,故事的内容是一名老年妇女被强盗抢劫,这里的故事细节无须赘述,故事的结果是当时有个目击者,看见从出事地点窜出一个梳着马尾的白人女子,跳上一辆等着的黄色汽车,而开车的是一个留着大胡子的黑人,两人迅速逃离现场。
  抢劫的两名凶犯究竟是谁?侦缉人员在侦察过程中查到了有作案可能的柯林斯夫妇。这对夫妇中柯林斯是个留着大胡子的黑人,他,的老婆是个白人,平时就喜欢梳马尾。从外貌上完全符合目击者的叙述,但柯林斯夫妇却矢口否认自己与此案有关。由于侦查人员也没有更有力的证据,所以法院聘请一所大学的一位有名的概率论专家来作鉴定。
  这位数学家在法庭上侃侃而谈,他根据自己擅长的概率理论进行推测说明。他说,在圣彼得罗市大街上碰到黄颜色的汽车比起碰到其他颜色的汽车,其可能性约为1/10;另外看到车内同时坐着一个黑皮肤和一个白人妇女的可能性约为1/1000;如果再把“马尾”和“大胡子”的因素考虑进去,那么同时满足目击者叙述的可能性约为1/12000000,也就是说,当时加利福尼亚州总人口1200万居民中约只有一对符合条件,而柯林斯夫妇这一对就在眼前。换句话说,基本可以肯定柯林斯夫妇就是抢劫犯。当时的陪审员相信了这位鉴定人的“精确”推理,于是大家一致认定两位被告有罪。
  但身陷囹圄长达3年的柯林斯夫妇仍然一直坚决否认,并且从未停止上诉。这终于引起了社会舆论的关注,也促使最高法院作出决定,对此案重新进行审理。
  为了使案件的重新审理更具科学可靠性,最高法院委派的法官雷蒙·沙利文也是一位概率论行家,经过认真计算,他得出的结论是:还存在着41%的其他可能性,这种可能就是州里还有另外一对男女符合目击者所说的这些特征。也就是说,原鉴定人的推断中存在着明显的漏洞和错误。而故事的发展完全证实了这一点,某一日,真正的抢劫犯落网,而且的确是另有其人。
  这则故事给我们的启发是:缺乏严密依据的纯理论推理,尽管有时能让大多数人信服,但仍有可能会和巧合的事实存在相当距离,这则事例便是最好的证明。司法上的判断只要不是铁证如山,就存在着疏忽和错误的可能性,所以一定要慎之又慎,因为这也是由统计学决定的!
  
  三、《红楼梦》的作者有几个?
  
  《红楼梦》是我国四大古典名著之一,在中国的文学史上占有重要的地位,被誉为中国最具文学成就也最具影响的古典小说,是中国长篇小说的巅峰之作。
  但由于种种历史原因,这部杰作的最终著作归属权一直没有得到确定。长期以来,人们普遍认为《红楼梦》的前80回是由曹雪芹所著(这是得到共识的部分),而后40回是由高鹗续写完成,但很多红学专家学者对此有不同看法,并且就此问题争论不休。而随着时间的推移和计算机技术的发展,数据统计逐步进入文学领域,于是大多数人认可的结论遭到了计算机强有力的挑战。
  1981年,首届国际《红楼梦》研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,他提出了一个惊人的发现:剔除人为的情感因素,根据逻辑严密、计算准确的计算机的判断,《红楼梦》的120回都是由曹雪芹一个人完成的。原来陈炳藻是从字、词出现频率入手,他把曹雪芹常用的句式、词语和搭配方法等,作为样本输入到计算机里,通过计算机把《红楼梦》的前80回和后40回进行统计、处理、分析、对照、比较,发现它们的联系程度高达80%,由此他断定,《红楼梦》前后120回均系曹雪芹所作。
  应该说,他的这个推断方法是相对可靠,推断结论也是有一定依据的。因为每个作家的经历不同,文风不同,使用语言的习惯也就不同。语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现。这种风格可以在一定程度上通过数量特征来刻画。例如,句长和词长可以代表作者遣词造句的风格;此外,字、词在作品中出现的频率也是个人风格的体现,而两个作者在这些方面都极端相似的可能性显然不是很大。而陈炳藻正是利用计算机分别计算前后两部分作品的平均词长和平均句长,对两部分作品使用的字、词、句的频率进行统计研究,并最终根据关联度确定这两部分完全是一个作者的统一风格。通俗地说,在计算机的眼里,《红楼梦》的作者只有一个,那就是曹雪芹。
  1987年,我国学者李贤平运用了47个虚字在《红楼梦》的每一回中出现的频率,通过计算距离等各种统计方法,探索了这部书各回写作风格的接近程度,结果发现前后统一的测量度令人信服,所以他推断《红楼梦》的作者出自曹雪芹一人之手,从而用科学的手段证实了一些“红学家”们论断的正确性,得到了越来越多的“红学”人士的认同,这是中国文学史上的争议首次使用数学方法得到了判断证明的事例。
  目前,利用计算机和统计学原理进行各个领域的数据处理,因其研究的精细性,思路的拓展性,结论的合理性,已经成为一种新颖科学的研究方法,引起越来越多的专业研究人员的重视,并越来越频繁地被使用。
其他文献
21世纪以来,教师教育学在中国的发展经历了萌芽、初创和探索三个阶段,并在学科内涵、研究对象、学科性质、逻辑起点、学科体系等方面取得了一定的进展。我国教师教育学学科的
复方抗球散对獭兔球虫病的疗效试验郭显椿(青海畜牧兽医学院西宁810003)为了进一步探讨中草药对兔球虫病的治疗效果,本试验将笔者曾筛选组成的中药复方抗球散应用于湟源县一养兔户自然
在发明创造的过程中,“变换”二字不能忘,就像炒菜不能忘记放盐、做馒头不能忘记使用酵母一样。如果忘记了“变换”二字,思维定势难突破,老一套经验难摆脱,发明创造就难成功。“不能忘”,不仅是个记忆问题,而且更是个思想方法问题。要想不忘并熟练掌握它,根本的办法是多加练习,变陌生为熟悉,才能熟能生巧,运用自如。变换的方面很多,但笔者认为以下几方面尤其要重视。    变换视角不能忘    所谓发明创新,重点是
日前从科技部获悉:科技部、财政部、教育部、国务院国资委、全国总工会、国家开发银行成立了“推进产学研结合工作协调指导小组”,决定统一协调各自掌握的科技资源,共同破解产学
某产品在进行地面静止发动机交验过程中,连续两批出现发动机工作时间偏短的问题。通过对发动机加工及装配、点火系统以及火药装药的影响分析,确定为火药装药是造成故障的主要原
阐述了移动Adhoc网络、Mesh网络、WMN网络3种典型的无线分布式网络的概念、结构和特点,通过对比,分析了它们在军事通信中的不同应用,指出下一步研究的方向是解决数据通信带宽
自组合创新的普遍规律 大自然的变化,人类发展和科技发明都遵循这样一个规律.从简单到复杂,从低级到高级的不断发展.而且从未停止过。这是自组合规律在各方面持续不断地发挥作用
景观特征评估(Landscape Character Assessment)简称LCA,是近十几年来英国和欧洲地区新兴的能够将场地的景观特征书面化的方法之一,其有着固定的流程并有相应的导则,故输出的评估报告有统一性。LCA促进着景观行业在知识和信息共享上的全球化,弱化由于语言不同而产生的阻碍,推动了景观行业的国际交流和合作。我国近几十年在经济在飞速发展中,国际地位不断提高,但以牺牲环境作为代价,忽
文章根据建设项目的污染特征,结合区域环境特征和社会影响,从污染等标负荷、影响范围、影响的可恢复性、环境质量现状和社会关注角度等五个方面综合考虑,采用层次分析法权重
日本一个研究小组日前利用一种基本粒子射线成功对位于鹿儿岛县萨摩硫黄岛上的火山进行了透视。这是世界首次对活火山内部进行透视,这一成果有望用于开发新观测手段预报火山喷