基于降维技术的软件脆弱性预测方法改进的研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:succeeboss1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件脆弱性对现实世界的医疗保健、能源、国防、金融和其他关键基础设施软件系统构成了重大且日益严重的威胁。有证据表明,由软件脆弱性引起的系统停机时间显著增加,因此潜在脆弱性威胁中那些敏感脆弱信息对安全检测专家尤为重要。此外,每年都有数十亿美元用来为因软件脆弱性引发的系统故障和非法利用买单。鉴于此类攻击主要是由软件脆弱性引起,因此检测和解决这些脆弱性就变得非常重要。早期的检测方法之一是在发现脆弱性后开发应用程序补丁升级软件系统。同样,用构建预测分类模型来确定软件是否有易受攻击的脆弱点对于软件工程领域的研究人员和从业人员来说至关重要。作为脆弱性评估中的经典问题之一,脆弱性的严重性预测是一项重要的活动,受到了研究者和从业者的广泛关注。先前的大多数工作都依赖于历史脆弱性数据和通用脆弱性评分系统(CVSS系统)来评估和度量软件脆弱性的影响。此外,机器学习技术(如随机森林,k-最近邻分类算法和决策树)也已被成功应用于预测软件脆弱性。然而,脆弱性预测的一个主要挑战是缺陷报告中模糊、稀少且复杂的语义内容,从而导致在脆弱性数据中生成了高维特征数据集。也就是说,脆弱性数据集中有一些不相关和冗余的特性会影响预测性能,特别是过程涉及N-gram分析的情况,这个问题属于“降维”的范畴。本文试图通过研究如何利用特征选择方法来解决维度问题以改进脆弱性预测和评估准确性。特别地,本文将通过使用征兆分析进行理论和实证研究,为该领域各自的科学知识库增加知识。该研究还调查了不同的特征选择技术,即反项频率重力矩TF-IGM(Term FrequencyInverse Gravity Moment)、归一化差异度量和基于萤火虫算法的特征选择对脆弱性预测模型的影响。本论文的主要贡献和研究内容如下:(1)本文提出了一种使用征兆分析(即示例性数据分析)来预测软件脆弱性严重性的方法。该方法开发了一种新颖有效的风向标算法来识别和选择数据的示例性子集(称为风向标),基于这些子集训练能有效提高基准技术预测准确度。实验结果表明,用风向标方法得到的的F值范围为14.3%-97.8%,相较于基准技术有很大的改进。除了软件脆弱性的严重性评估外,风向标概念还应用于软件脆弱性预测。准确地说,结合N-gram分析和征兆分析来预测易受攻击的软件模块。从F-Droid(开发源代码)存储库中提取的十个Java Android应用程序验证了所提模型的有效性。结果显示,F值范围为18.5%-94.3%,由此可知,风向标方法提高了预测性能。因此,若要建立在存在不相关、冗余特征的高维数据集上的脆弱性评估模型,征兆分析法是一种有效可行的技术。(2)本文提出了一种利用类别标签进行术语加权的权重度量机制——反项频率重力矩TF-IGM(Term Frequency-Inverse Gravity Moment),该度量类似于特征选择,能有效改善软件脆弱性的严重性预测性能。研究表明,TF-IGM可与现有框架相结合,以度量语料库中术语的类区分能力,从而赋予类区分能力强的术语更大的权重。此外,通过进行一项实证研究,本文扩大了先前研究中使用的参数集,以证实TF-IGM在脆弱性严重程度预测中的有效性。具体地,在总共包含了27248个脆弱性的10种易受攻击的软件产品上使用5种机器学习算法,对TF-IGM和信息增益(IG)特征选择进行了综合比较。实验结果表明,与传统的术语加权度量相比,TF-IGM在脆弱性分类方面更具优势,此外,这一发现也表明特征选择程序大大地改善了脆弱性报告分类。(3)本文还从理论和经验上深入研究了不同特征选择技术(即归一化差异度量和基于萤火虫算法的特征选择方法)对脆弱性预测模型的影响。提出的基于萤火虫算法的特征选择技术被用于排除大量不相关和次要的特征,其中少量的特征被保留下来以提高分类精度。同样,该研究使用归一化差异度量解决了高维特征集问题,主要目的是消除对文本挖掘过程无重大影响的无关特征。一般而言,引入特征学习算法训练的模型相较于基准特征选择方法具有更高的预测精度。(4)本文提出了一种新颖的方法来研究优化机器学习算法的超参数是否能够提高脆弱性预测的准确性。为评估方法的有效性,本文在12个开源数据集上使用8种分类模型进行了一项实证研究。结果表明,在实验分析的所有情况下,本文提出的模型都表现出更高的预测精度。综上所述,本文研究成果对软件脆弱性预测的理论和应用提供了重要的研究参考,同时提出了四种新颖的可提高预测精度的关键方法和技术。
其他文献
生物质热解制备高附加值产品是生物质利用的重要发展方向。生物质中含有丰富的含氧官能团,若用氮取代氧,则可得到丰富的含氮化学品,如:吡咯、吡啶、吲哚等,可用于合成药物、
民族文化保护是民族地区经济社会发展的重要课题,随着社会的进步与发展,人们追求现代化生活方式,那些代表着民族文化和精神的非物质渐渐湮灭在了历史的边缘。民族——非物质
针对SELinux策略配置存在的不安全访问控制授权,提出了基于信息流分析的权限控制方法。该方法针对系统安全目标对策略配置进行信息流分析,确定了目标程序和不安全的访问授权。
以4P营销组合策略为基础,结合跨国公司的运营环境,具体分析了苹果、肯德基两大跨国公司的成功经营战略,以期为中国企业如何“走出去”提供相关经验和启示。