论文部分内容阅读
近年来,互联网所产生的数据量飞速增长。海量数据对于数据分析者是巨大的潜在资源,但是网络数据通常种类繁多、结构复杂,其中包含大量密数据,这些因素对研究者构成了挑战。密码体制识别是密数据分析的前提,属于密码分析学中区分攻击的范畴,具有重要的理论意义与应用价值。本文围绕密文特征提取、密码体制识别的分类器构建,开展了机器学习技术在密码体制识别中的应用研究,论文主要内容和创新点如下:1.密码体制识别的效果在实际应用中通常受到多种条件制约,对可能影响识别效果的因素的探究,将有助于后续更好地开展密码体制识别任务。为此采集14种密文特征并基于支持向量机算法构建了密码体制识别分类器,针对AES、Blowfish、Camellia、DES和IDEA等5种分组密码体制开展密码体制识别实验中,对密文特征、密钥设置、不同文件大小等对于识别性能的影响进行了分析,选择误报率、精确率和召回率等指标分析评价了密码体制的识别情况,初步尝试了基于随机性测试的密文特征在密码体制识别中的应用。2.受随机性测试在密码体制识别中的应用启发,首次基于NIST测试集中的15种随机性测试提出了54种基于随机性测试的新密文特征,并在由随机森林算法构成的分类器中广泛开展了分类训练和测试。分别完成了针对明密文数据的区分、分组密码工作模式的区分以及针对AES、DES、3DES、IDEA、Blowfish和Camellia等6种分组密码体制的区分实验,实验结果进一步证实了基于随机性测试特征在密码体制识别中的有效性,通过对比分析挖掘出多种性质优良的密文特征。3.基于9种典型的机器学习算法构建了密码体制识别分类器,针对AES、DES、IDEA、Blowfish、SMS4、Camellia等5种分组密码算法的密文进行了两两识别,并对各种分类器区分密文的能力进行了比较和分析。为提高密码体制分类器的识别效率,分别采用降维算法和并行优化方法对3种分类器进行优化。实验结果显示基于t-SNE的特征降维技术能够将Adaboosting和Bagging这两类决策树的运行时间减少61%以上,并行化执行随机森林算法的运行时间减少58%以上。4.针对Grain-128密码体制与AES、DES、IDEA、Blowfish、SMS4、Camellia、Trivium、Sosemanuk、Salsa、Dragon和RC4等11种对称密码体制开展了两两识别的实验,实验结果显示出Grain-128与其它密码体制的加密密文之间存在能够被区分的差异,且比较了各类特征对于Grain-128的识别性能,对部分高维特征进行了降维优化,在保持识别准确率稳定的情况下,将特征的数据存储量降至原先的1/8,分类算法的运行时间只需原先的1/18。