软件缺陷预测中不平衡数据处理方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:coudoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷往往仅分布在少数代码中,但是这些少量的软件缺陷会给软件系统安全运行带来潜在的严重威胁。软件缺陷的不平衡分布,严重制约了软件缺陷预测(SDP)的准确度。因此,如何在软件缺陷预测中解决缺陷分类的不平衡分布问题,进而提升预测精度,是软件测试中一个重要问题。针对上述问题,本文提出一种基于合成少数类过采样技术(RSMOTE)的数据不平衡处理方法(RSMOTE-Based Data Imbalance Processing Model for SDP,简称RDIPS)。在去噪模块中,我们使用最大最小规范化来删除离群点数据,使用计算类模糊度算法(FCMD)计算每个点的模糊隶属度和模糊标签,根据选择边界点算法(BRS)去除危险点和噪音点。然后,采用NASA、Promise公开数据集生成仿真样本,并在不同分类器下构建模型,训练和测试。实验结果表明,RDIPS模型适用于数据不平衡的情况,在平均F1-measure这一指标上要比其它对比算法高出6.98%,对于解决软件缺陷预测中的类不平衡问题,有着很好的效果。而Recall和Precision等指标亦有不同程度的提升。对于进行跨项目预测这一场景下,RDIPS模型与其他方法相比仍旧可以提升各项指标,在一定程度上解决类不平衡问题。最后研究了数据集中不同软件度量属性对测试结果的影响程度,统计了各自对测试结果影响最大的十个属性并对实验结果进行进一步整理。统计结果表明,大部分数据集拥有相同的高影响力属性,且在跨项目软件缺陷预测时,使用高影响力属性相近的数据集作为训练集会取得更好的效果。
其他文献
在计算机视觉领域中,对处于复杂光线场景或者极端运动状态下的目标物体进行跟踪是一项重要且充满挑战的任务。相比于传统相机,基于事件相机的视觉感知系统更关注每个像素的光强变化,表现出了更加出色的感光能力,更低的延迟和更小的功耗。本文针对基于事件相机的运动目标跟踪问题展开研究,主要工作是基于相关滤波跟踪框架设计了一种针对于异步事件流的跟踪方案,具体包括外观模型建立和跟踪算法设计两部分。在外观模型建立部分,
学位
航空运输是现代化运输体系的重要组成部分,民用航空运输是国民出行的重要交通方式。伴随民用航空运输的全面普及,航班数量激增致使航班延误与波及延误事件频发,严重影响乘客出行计划、降低航司经济效益。此外,因航班延误带来的纠纷与冲突常引发群体性事件,影响社会和谐与稳定。基于此,制定鲁棒性的飞机排班调度方案具有重要的应用价值。本文针对鲁棒性飞机排班调度计划问题展开研究,具体地,本文主要研究内容如下:(1)针对
学位
近年来,为了解决图像相关性强和冗余度高等问题,基于混沌理论的图像加密成为了一个热门的研究课题。另一方面,随着3D打印的兴起,基于混沌理论的三维模型加密的研究也迫在眉睫。且现有的三维模型加密存在着加密过程复杂,加密速度慢等问题,故本文提出了一种基于混沌理论的三维模型加密算法。另一方面,基于现存的混沌图像加密算法所存在加密效率过低和密钥敏感性较弱的等问题,本文分别提出了两种基于混沌理论的图像加密算法。
学位
当前,陆上环境目标检测技术的发展已经趋于成熟,在检测速度和精度上都有了较大的提升,而水下目标检测的相关研究则进展缓慢,其主要原因有以下两点:首先,不同海域、不同深度、不同时间以及不同浑浊度状态下采集到的图像风格差异较大;其次,用于目标检测训练任务的图像需要预先进行人工标注,而人工标注不仅费时费力,长时间持续标注也可能会由于主观因素导致出现错标和漏标等问题,这些“问题数据”将会直接影响训练出的目标检
学位
随着我国对外贸易总量的飞速增长,港口的集装箱吞吐量呈现井喷趋势,如何在满足一定填充率的前提下,实现快速装箱,成为亟待解决的问题。集装箱三维布局优化问题本质上属于NP-Hard问题,其解空间过于庞大,难以找到最优解,且当待装载货物种类较多(即异构性较强)时,求解速度较慢。针对此问题,本文提出一种多策略动态融合启发式算法(DHHA),在保证填充率的前提下实现快速求解。首先,考虑现实约束条件,建立装载模
学位
近些年,城市道路网络中基于车辆等移动对象所产生的轨迹数据的相关研究在智能交通领域掀起了一片研究热潮。轨迹异常检测作为路网轨迹模式挖掘的一个热门研究课题之一,其主要目的是识别出轨迹数据中异常但有价值的数据信息,对路网中欺诈和不良事件的监测具有重大意义。现如今,大多数针对路网的轨迹异常检测算法都倾向于采用基于密度或基于距离的检测方法,并未考虑时间信息对异常轨迹检测结果的影响;并且在检测过程中,通常选择
学位
船舶交通管理(Vessel Traffic Service,VTS)系统是集雷达、通信、计算机网络、信息处理技术于一体的多技术融合与集成的系统,近20年来我国在沿海和长江各港口引进国外的技术建设了大量的VTS,随着水上交通的不断发展、国家信息安全的加强和用户对系统运行效率的提高以及智能化的需求,对VTS系统进行国产化已经势在必行。目前的VTS系统对于船舶的识别、交通安全指挥、风险提示和告警、船舶进
学位
多媒体数据是网络大数据的一种主流表示形式,并呈现出海量、高维、异构等特性。如何在大规模多媒体数据中,快速、准确地检索出目标数据是计算机研究领域的一个基本问题,其解决方案被广泛地应用于诸如物体检索、身份识别、三维重建等场景中。不过,高效的近邻查询一般需要借助数据的提前索引,而多媒体数据的高维特性使得多数传统索引技术失效,并导致精确近邻的查询效率急剧下降。近似最近邻检索技术脱颖而出,逐渐成为解决上述问
学位
生物医学事件抽取以结构化的形式展示了海量生物医学文献中生物分子之间细粒度的复杂交互关系,为科研人员了解生物机理和攻克医学难题提供了重要依据。一个完整的生物医学事件由触发词和事件元素组成。触发词引起了整个生物医学事件的发生,并且决定了生物医学事件的类别。事件元素是生物医学事件的重要组成部分,在生物医学事件中扮演着重要的角色。因此,本文紧紧围绕生物医学事件抽取中的两个关键问题——触发词识别和事件元素检
学位
程序开发人员在软件开发的过程中往往会遇到许多技术问题,提出具体问题并从在线专家那里得到有针对性回答的方式是当前最常用的方式之一。但是程序开发人员所提问题回复时间的长短取决于很多因素,包括问题的表述方式,问题表述的细致度,问题类别的数量,在线并对问题感兴趣的用户数等等。相关的研究工作集中在预测问题是否会在给定的时间间隔内被回复,而没有预测出其具体的回复时间。准确高效地预测问题的回复时间能够让用户对其
学位