基于深度学习的口令猜测模型研究

论文部分内容阅读

身份认证是保障用户信息安全的基本手段。文本口令凭借其简单易用的特点,成为了互联网中最主要的身份认证方式。然而,文本口令存在着严重的安全隐患。一方面,用户为了方便记忆,倾向于选择简单的口令;另一方面,网站管理者的疏忽造成了大量口令数据库的泄露。因此,关于口令安全的研究具有重要的学术价值。口令猜测攻击作为评估口令安全性最直接的方法,是口令安全研究中的热门课题之一。如何在有限的次数内尽可能多地生成正确口令是口令猜测攻击研究中的一个重要问题。目前的主流方法是构造基于统计概率的概率上下文无关文法模型和马尔可夫模型。这类方法的共同特点是需要大规模的数据集进行训练来保证估计概率的精确度,在数据集充足的短口令猜测中效果良好。然而,目前长口令的数据集较少,这类方法在长口令猜测中效果较差,如何提高长口令的猜测效果已成为口令猜测中的另一个问题。为了解决上述两个问题,本文通过三方面的研究,结合深度学习技术,构建了适应长短口令猜测的模型。本文首先从五个维度对六个真实用户的口令数据集进行特征分析,挖掘了口令数据集中的流行口令、长度分布、字母分布、口令结构特点以及同一用户在不同数据集中所用口令的相似度,研究了用户的弱口令行为和中英文用户构造口令之间的差异。这些特征都表明了口令中的字符分布是不均匀的,深度学习技术应用在口令猜测中是完全可行的。接着,本文设计了口令数据处理方法和口令生成算法,根据用户口令的长度分布特征,基于仅保留Transformer解码器的GPT模型,构建了短口令猜测模型。该模型比基于统计概率的模型和其他深度学习模型具有更高的覆盖率。最后,本文针对长口令猜测这个难点,模拟用户基于短口令构造长口令的行为,调整口令数据处理方法和口令生成算法,从而改进了模型。实验表明,改进后的模型在长口令猜测上比传统的概率上下文无关文法模型具有更高的覆盖率。

与本文相关的学术论文