面向数据高维性和不平衡性问题的软件缺陷预测模型研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wgsnt1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测技术能有效辅助软件测试保证软件质量。然而,数据的不平衡性会使训练时过多关注多类无缺陷模块而对少类有缺陷模块训练不足,导致对缺陷模块分类性能大大降低;大量无关和冗余特征会降低预测精度;此外,单一分类器对分布多样的缺陷数据预测不够全面。本文就上述问题进行研究。
  首先,针对缺陷数据不平衡问题,提出一种ADASYNTomek组合采样算法。采用自适应方式将合成重点聚焦于难以学习的缺陷样本上并通过TomeLink方法来确保数据集达到平衡的同时去除噪声样本,提高了数据质量。
  其次,针对缺陷数据高维性问题,提出一种基于综合排序和交叉验证递归消除的深度特征选择算法(CR-RFECV)。通过信息增益率和卡方值综合分析特征与类别间相关性剔除无关特征,利用Spearman秩相关系数分析特征间冗余性去除高冗余特征,并采用基于岭回归的交叉验证递归特征消除方法进行更深层次选择。从而解决单一特征选择泛化能力差、不够稳定的问题,确保降维的同时提高计算精度。
  再次,单一分类器建立的模型对分布多样的缺陷数据预测不够全面,需集成多种基分类器进行提升。因此,提出一种ATW-Bagging集成分类算法,同时从训练和决策两阶段考虑,训练阶段全面考虑样本的同时引入数据分布的多样性,并采用ADASYNTomek方法分别对不平衡率不同的训练子集平衡化处理;决策阶段选用不同基分类器,增加基分类器多样性,并将依据误分代价进行加权集成。在构建软件缺陷预测模型时,先对数据进行简单预处理并采用CR-RFECV算法进行降维,进而采用ATW-Bagging集成分类算法对软件模块进行预测,得出最终预测类别。
  最后,将CR-RFECV算法与其他降维方法进行对比,将ATW-Bagging集成分类算法与单一分类算法、传统Bagging算法以及目前较新软件缺陷预测算法对比,验证其有效性。
其他文献
随着现代计算机的使用和大规模数据的应用,传统的单核芯片已无法满足社会日益增长的高性能计算需求。同时,由于登纳德缩放比例定律的终结以及多核CPU下暗硅效应的影响,多核处理器芯片的发展也受到种种限制。然而,异构系统可以在同一台设备上提供具有不同效率和能耗的硬件计算单元,从而实现系统整体计算能力的提升。这些有利条件促进了硬件加速设备的不断发展,使得具有异构架构的计算平台开始通用化,并逐渐成为计算服务发展的主流。本文通过对异构系统中数据加解密优化方面的工作总结,提出了针对异构平台的高性能计算策略。
  文中
【摘 要】小学数学是小学教育的重点学科,由于其具有抽象性、逻辑性强等特征,教师在教学中尤其重视数学学科的知识传输。随着新课改的深入推进,小学教育呈现出了崭新的面貌,小学数学教学也不断引入新的理念和方法,其中探究性学习成为广大教师和学生最为关注的话题。研究表明,在小学数学教学中开展探究性学习对奠定小学生的数学基础、培养良好的学习习惯具有极其深远的意义。  【关键词】小学数学 创设情境 探究性  【中
期刊
随着科学的飞速发展,信息时代带给人们越来越多的数据,现在各行各业都有着大量的未被充分利用的数据。为了更加充分的利用数据带来的信息,需要对数据进行处理和分析。
  首先,本文对模糊聚类的有效性指标进行了分析,提出了一个新的模糊聚类有效性指标。聚类和模糊聚类是一种为数据分类的好方法,能让人们更加清晰的认识和理解数据。聚类和模糊聚类的有效性指标的优劣直接影响聚类的效果。本文先是对聚类的有效性进行分析研究,然后基于模糊聚类的类内紧致性和类间分离性,添加了对数据集自身几何结构特征以及类的大小等多个因素的考虑,
现代软件系统已经成为目前最不可或缺且最复杂的人工系统之一,而随着软件的愈发庞大和复杂,其不可避免地存在故障或错误,从而迫切需要研究和发展软件故障定位技术来促进软件故障调试和修复。然而,现有的软件故障定位技术往往仅关注软件测试执行过程中软件实体的执行覆盖情况,而忽略了软件实体之间交互关联关系的分析和利用。本文以软件函数实体为分析对象,结合基于频谱的软件故障定位(Spectrum-Based Fault Localization,SBFL)技术,基于复杂网络理论建立描述函数间不同关联关系的动态软件网络表征模型
海面溢油污染通常以不同的风化状态存在于海面上,如不同厚度、不同分布状态的油膜和乳化溢油等。海洋激光诱导荧光技术(Laser Induced Fluorescence,LIF)是目前最有效的海面溢油监测技术手段之一,具有灵敏度高、方便灵活、实时性强和不存在探测盲区的优点。而LIF探测技术除对溢油污染未乳化阶段连续分布的较薄油膜探测方法有所研究外,对于不连续分布油膜和厚油膜,以及油包水、水包油两个不同乳化阶段等溢油污染情况均未见有可用的理论研究成果和成熟的探测方法。面对目前LIF探测对海面溢油不同阶段和分布类
【中图分类号】G4 【文献标识码】A 【文章編号】2095-3089(2016)34-0222-02  生命就是一次旅程。当我们踏上时间这段列车的时候就注定穿梭在时间和空间中,永不回头,路上再美的风景也只是擦肩而过的过眼云烟,再动听的故事也只是脑海中的一束烟花,一瞬即逝,它们从未属于你,匆匆来去,我们只是个过客。  事事变幻无常,然而古往今来的感情大致相同,所以我们才能穿越时空领略圣贤者的哲理智慧
期刊
软件缺陷预测技术能够在软件开发初期尽早的发现软件缺陷,有助于合理地分配测试资源,降低软件开发和维护成本,是保证软件可靠性的重要方法之一。机器学习的发展为软件缺陷预测提供了新的思路,本文进行了基于机器学习的软件缺陷预测方法的研究,主要内容如下。
  首先,研究了不同种类的软件缺陷及软件缺陷特征提取方法,结合特征选择、类不平衡学习和词向量技术等机器学习方法提高软件缺陷数据集的质量,提升软件缺陷预测模型的性能。
  其次,针对软件缺陷预测中的类不平衡和维度爆炸问题,提出了基于代价敏感的特征选择算法。
随着物联网、移动设备的普及,越来越多的信息需要通过无线通信的方式共享,大量的隐私信息将通过无线信道进行传播。然而,由于物联网设备、移动设备的低性能低功耗特性、无线信号的暴露性和传统加密方式自身的缺陷,使得传统加密方式不便捷、不安全,容易造成隐私的泄露。因此需要一种能够令通信双方动态生成密码的方案。物联网中广泛部署的无线设备也需要方便地进行相互的认证。
  针对这些不足和需求,论文聚焦于面向智能无线设备的动态密钥生成和匿名认证方法,主要工作可概括为:
  首先,设计一种基于无线信道状态信息的动态
阴影检测一直是计算机视觉领域的一个重要的分支,其在计算机视觉领域中起着举足轻重的作用。阴影在自然场景中无处不在,阴影的存在会影响诸多计算机视觉任务,如目标识别、图像分割以及光学测量等。因此如何更好地检测阴影成为计算机视觉领域乃至整个人工智能领域亟待解决的难题。基于国内外研究现状以及深度学习和计算机视觉等相关知识,对如何获取更好的阴影检测结果进行了深入研究。具体研究内容如下:
  首先,提出了将有效的多任务学习引入到阴影检测任务中,通过阴影尺度分类子网络在阴影检测过程中为主网络添加高级先验;然后,将提
随着数字化办公的普及,电子文件逐步代替纸质文档成为企业信息存储、共享和使用的办公工具,其中保存着大量的商业机密,如果发生泄露会造成巨大的财产损失。部分企业采用防火墙或者入侵检测技术防止外部攻击人员窃取机密文件,但是不能杜绝内部员工主动泄密的行为。在文件被泄露的情况下,如何保证文件数据的安全成为现代信息安全技术的关注热点之一。
  首先,分析了国内外Windows平台主流的文件数据保护产品,发现了它们在安全性和实用性存在的问题。基于Windows文件系统操作内在机制,采用文件系统过滤驱动技术实现对文件