长篇文章替代式密码的破译模型

来源 :速读·下旬 | 被引量 : 0次 | 上传用户:xtwjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:密码破译是密码学研究领域的一个重要分支,也是目前信息安全研究的一个热点方向。本文主要研究单字母替换式的密文破译问题,建立了针对长篇文字的基于频率分析的破译模型。
  在判断单词的存在性时,本文将来自COCA的近3.6亿的词汇库构建成一个字典树,不但节省了运行内存,也提高了计算效率。根据英文字母出现频率的差异性,采用频率分析法。在对密文的单字、每个单词的字头字尾等进行分析后,与实际的字母出现频率进行比较,可以确定如E、A、T、H等高频字母的密文,再采用穷举法遍历所有密钥。
  关键词:字典树;频率分析;随机优化;穷举
  1 问题重述
  历史上有很多密码的编制方法,有单表替代密码、仿射密码、秘钥短语密码等。其中较为简单的是替换式密码,也就是将文中出现的字符一对一的替换成其他的符号。对于拼音文字而言,最简单的形式是单字母的替换加密,也就是以每个字母为一个单位,将每个字母替换成另外的字母或者其他的符号。这个映射叫做密码表,拥有密码表的人能够轻易将密文破译成明文。
  现在假设明文是由英文字母写成的,并且密码表是针对26个字母的,每个单词之间的空格、标点符号都保留。针对已经获得的一些由单字母加密方法得到的密文。要求我们团队建立合理的数学模型,设计一个算法来自动化的破译密文。
  2 模型基本假设与符号说明
  2.1基本假设
  (1)假设明文与密文是由英文字母写成的,并且密码表仅针对26个英文字母;
  (2)假设每个单词之间的空格、标点符号都保留;
  (3)假设COCA的语言资料库数据量够大,足以用于判别一个单词的正误。
  3 问题分析
  对于长篇密文的破解,频率分析法是比较有效的。根据26个不同字母的使用频率的差异,我们对大量英文文献进行统计,得到各字母出现频率的大小,并且可以进一步可以将它们分成极高频率字母组、次高频率字母组、中等频率字母组、低频率字母组和甚低频率字母组。接着,对所要破译的密文中每个字母出现的频率进行统计,得到密文中各字母所对应的明文字母的组类。
  在英文单词中,每个单词的字头和字尾也有不同的出现频率,所以我们接着对密文进行相应的频数进行统计,得到更为范围更小的密文中各字母所对应的明文字母集合。
  此时,因此利用穷举法尝试遍历可能的密码进行解密。
  4 模型建立与求解
  4.1基于频率分析的破译模型
  4.1.1模型建立
  我们从COCA[1]中获取了一长篇文章,随机进行编码后得到密文,并对密文进行破解。根据英文字母出现频率的显著差异性,采用了频率分析法,统计出密文中每个字母的频数,对照实际英文字母出现频率表,可以确定a,e等高频字母对应的密文。
  类似的,英文单词的字头和字尾也有不同的出现频率,接着对密文进行字头、字尾分析。此时,不能确定的密文字母其所对应的明文字母集合中元素个数与一开始相比也明显减少,因此利用穷举法尝试遍历进行解密。
  4.1.2模型求解
  根据对大量英文文献的统计,我们可以发现,各字母出现的相对频率非常稳定。然后可以进一步根据各字母的频率的大小将英文字母进行如下分组。
  极高频率字母组:E;次高频率字母组:T、A、O、I、N、S、R、H;中等频率字母组:L、D;低频率字母组:C、U、M、G、P、F、W、Y、B;甚低频率字母组:V、K、J、X、Z、Q。
  根据密文中字母的出现频率高低,我们将他们进行归类得到:
  密文中的字母R对应于明文中的字母E;次高频率字母B、H、C、O、M、A、Y、V很可能对应于集合{T、A、O、I、N、S、R、H};中等频率字母E、T很可能对应于集合{L、D};低频率字母组P、S、L、F、D、I、W、K、N很可能对应于集合{C、U、M、G、P、F、W、Y、B};甚低频率字母J、U、Q、X、G、Z很可能对应集合{V、K、J、X、Z、Q}。
  4.2字头、字尾分析
  通过查找资料,可以找出字头最频繁的十个字母为:T、A、S、I、W、O、H、B、C、M;字尾最频繁的十个字母为:E、S、T、D、N、R、Y、O、G、A。对密文中字头、字尾[3]出现的频数进行统计。
  根据所得数据,密文的次高频率字母B、H、C、O、M、A、Y、V中,B、C、M、H字头和字尾都很频繁出现的字母,它们很可能对应于集合{T、A、O、S}中的明文字母;Y、A出现在字尾,而在字头则出现较少,则它可能是明文字母中N或R;O、V出现在字头,而在字尾则出现较少,则它可能是明文字母中I或H。
  4.3穷举
  上述分析结束后,我们可以确定了9个密文字母对应的明文,最终各组类中不能确定的17个字母如下表:
  表1  最终各组类中不能确定的字母
  <E:\123456\速读·下旬201510\Image\表六.png>
  下面我们采用穷举法进行解密。
  相比较直接穷举法需要进行的26的阶乘的计算量,本算法的计算量为:,约为,远远小于。密文破解速率是可以接受的。求解得到的明文与对应的密文如下:
  表2密钥对应表
  <E:\123456\速读·下旬201510\Image\表七.png>
  5 模型优缺点
  5.1模型优点
  本文的模型准备中构建的字典树,避免了在海量词汇库中逐一搜索以判断一个单词正误的复杂性,大大降低了算法的计算量。
  5.2模型缺点
  破译算法没有从密文本身的性质出发考虑,而密文的结构对破译效率有比较显著的影响,鉴于密文种类的多样性不作考虑,此处有所欠缺。
  参考文献:
  [1]Full-textcorpusdata,http://corpus.byu.edu/full-text/formats.asp,2015年4月18日
  [2]吴干华.基于频率分析的代替密码破译方法及其程序实现[J],福建电脑,09:125-127,2006
  [3]立早.初等密码分析学——数学方法(续一)第二章一般的单表代替[J],通信保密,02:65-74,1980
其他文献
随着我国经济水平的迅猛发展,电力企业更是面临着更加严峻的市场经济考验.尤其是目前在电力市场中,客户服务作为企业之间的核心竞争力,其关键在于服务质量的高低.而客户服务
毛泽东指出政治最重要的是要确保政治权利.邓小平指出社会主义现代化建设是中国最大的政治.江泽民强调“领导干部一定要讲政治”,要善于从政治上观察和处理问题,将政治提到艺
“城中村”是中国大陆地区城市化进程中出现的一种特有的现象.在1978年开始改革开放后的30多年间里,一些经济发达地区城市的建成面积迅速扩张,原先分布在城市周边的农村被纳
我们正处在一个新技术革命的时代,新技术革命的关键是信息技术,信息技术由测试技术,计算机技术.通信技术三部分组成,显而意见在信息时代的信息“获取--处理--传输”的链条中,
在机械加工中,误差是不可避免的.只有详细地分析对误差产生的原因,我们才能采取相应的预防措施减少加工误差,提高加工精度,使机械加工技术进一步完善,推动机械加工水平的进一
固定资产是行政事业单位开展业务活动所必不可少的基本物质要素,也是行政事业单位赖以生存和发展的重要资源之一.如何科学有效地搞好固定资产管理,确保其安全和完整,充分发挥
公共经济管理在改善人民生活中发挥着重要作用、公共经济管理是改善人民生活的一项重要手段和措施.公共经济管理对维护社会分配公平起着积极的作用.从公共经济管理的根本出发
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
随着当今社会市场经济的不断发展,无论是在企事业单位中都把人力资源管理工作当成重点工作.本文即从当今社会企事业单位人力资源管理的角度出发,简单说明在当今企业中人力资
摘 要: 随着科学探究的深入,我们发现真正的探究发生在孩子的头脑中,提高孩子的思维能力才是科学课堂的重点。本文结合科学课的教学实践,介绍了促进小学生思维发展的五个有效做法,对在科学探究活动中如何发展学生的科学思维作了分析和探讨。  关键词: 科学学习 思维发展 教学方法  科学学习多年来经历了很大的变化,从最初的教材本位到后来的学生本位,再到以探究为核心的科学学习,伴随科学探究的不断深入,我们越来