基于集成模型的软件缺陷预测

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户:sotry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会中,计算机软件产业迅速发展,生活中的各个角落都充斥着计算机软件的影子。软件缺陷预测是软件开发工程中的重要环节,如果在开发的过程中可以及时发现并纠正软件中潜在的缺陷,可以在一定的程度上提高软件的质量。所以,软件缺陷预测在保证软件质量中发挥着重要的作用。软件缺陷预测的目的是有效地识别出有缺陷的样本。为了预测软件中的缺陷,许多数据挖掘算法已被提出,如支持向量机和贝叶斯等。然而,真实的软件缺陷预测中的数据往往是类别不平衡的,这些传统的方法并不能有效地处理此类数据。鉴于此,研究者提出了重采样、代价敏感学习和集成学习等方法。但这些方法或者改变了原始数据集的真实性,或者只是单纯地在训练阶段或决策阶段处理类别不平衡。为了处理软件缺陷中这种类别不平衡问题,本文提出了一个基于改进的类权自适应、软投票与阈值移动的Bagging集成模型,该模型在不改变原始数据集比例的情况下,从训练和决策两个阶段同时考虑处理类别不平衡问题。为了证明文中提出的方法的有效性,实验采用NASA和Eclipse软件缺陷标准数据集进行预测,并与最近几年提出的软件缺陷预测方法进行对比,实验表明,该文提出的处理软件缺陷预测中类别不平衡问题的方法整体性能优于其它软件缺陷预测方法,具有较好的预测效果。本文的主要研究工作如下:(1)为了避免错分带来惨痛的代价,我们给不同的类别赋予不同的权值为使分类器在训练过程中对不同的类赋予不同的关注度。本文在不改变原始数据集比例的情况下(训练集和测试集上的类别不平衡率相等),对每类样本进行类权值自适应学习,分别得到不同类样本的最优权值。(2)训练阶段,由于选择分类器要满足“好而不同”(基分类器要有一定的“准确性”和“多样性”)的特点,本文选择决策树(DT)、支持向量机(SVM)和逻辑回归(LR)三个经典分类器,使用第一步得到的最优权值训练三个基分类器,并通过软集成的方法组合三个基分类器,得到三个类加权基分类器,同时计算每个类加权基分类器的置信度。(3)决策阶段,在测试集上分别计算三个类加权基分类器的分类概率,使用软投票的方法对分类器预测的结果进行投票。最后,根据阈值移动模型来作出决策,得出最终预测类别。
其他文献
篮球活动是一个以跑、跳、投为主的综合性运动。篮球场上快速紧张,复杂多变。教练员(教师)在教学中要以人为本,充分调动运动员的积极性,使他们成为学习的主人。要充分利用心理学知
不管是在部队还是在射击训练馆,射击训练都是一项热点和必备科目。但是目前训练水平整体还很落后,大多数还是采用人工报靶,人工统计数据这种较为原始的方式。不仅效率不高而
结合本体理论,以汽车后桥产品设计开发为研究对象,提出了一种基于本体的知识管理系统平台框架。研究了系统实现的基础技术方案,对面向主题的多维知识分类、企业知识本体建模
选用不含黏弹性成份的非石棉有机摩擦材料为原样品,通过在其配方中分别添加不同类型、不同质量百分比含量的黏弹性成份,制备了多种不同样品。运用试验模态分析和动态热机械分
介绍一种基于多参考点最小二乘频域法(一种工作模态法)的刚体参数识别方法。它适用于具有阻尼和非线性刚度支承的系统(如汽车动力总成),可在实车工作情况下对动力总成的模态参数和
本文简要阐述了生物免疫系统的免疫机制,分析了免疫机理同计算机安全共同特性,最后介绍了人工免疫在计算机安全领域两个方面的应用和发展:入侵检测系统(IDS)和病毒免疫系统(VIS)
本文旨在论述装置艺术与城市地缘属性、环境与建筑,空间与人之间的关系,并以装置作为表现形式,结合宁波东钱湖韩岭美术馆公共绿地空间作为具体案例,论述公共装置艺术与人、建