论文部分内容阅读
本文以结构化查询语言(SQL)为研究对象,利用词袋(Bo W)模型和词频-逆文档频率(TF-IDF)算法两种方法进行SQL语句向量化。文本向量化后,特征矩阵维数大大增加,很难在后面数据训练和预测中使用。为解决这个问题,对大量SQL注入攻击语句与用户正常输入的SQL语句进行研究分析,概括出28个特征关键词。同时,使用决策树、XGBoost和随机森林三个分类模型,对数据集进行模型训练及预测。实验结果表明:与词袋(Bo W)模型相比,词频-逆文档频率(TF-IDF)算法的准确率、召回率、F分数、精确率均提高了1