异质软件缺陷预测技术研究

来源 :武汉大学 | 被引量 : 2次 | 上传用户:huaxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,软件缺陷预测在软件工程领域引起了研究者的广泛关注,基于机器学习的缺陷预测技术成为了研究的热点。软件缺陷预测主要是基于软件项目中的历史缺陷数据构建出预测模型,以识别出被测项目中潜在的缺陷,从而达到优化测试资源配置和提高软件产品质量的目的。最近,研究者提出了异质软件缺陷预测,是指利用其它项目(即源项目)中的数据来预测目标项目中的缺陷,解决了源与目标项目数据之间的度量不一致(即度量的类型不同或数目不同)问题。虽然现有的异质缺陷预测方法取得了不错的效果,但在实际应用中仍然存在着一些亟待解决的问题。本文主要研究基于机器学习的新技术、新方法用于处理异质软件缺陷预测中的一些问题。(1)缺陷数据通常包含不同类型的软件度量,不同的度量具有不同的物理意义及分布,这些事实表明了缺陷数据常位于非线性的特征空间中,具有线性不可分的特性,存在着线性不可分的问题。(2)缺陷数据通常是类不平衡的,即一个项目中所包含无缺陷模块的数量远远多于缺陷模块的数量,呈现出类不平衡的分布。不平衡的数据分布会使得预测模型给缺陷类带来不同程度的误分,进而会影响预测模型的性能。(3)由于目标项目内的数据与源项目中的数据具有不同的软件度量,它们之间通常是异构的。如何使用混合项目数据(即组合少量标记的目标数据和源数据)用于异质缺陷预测并没有得到研究。(4)现有的异质缺陷预测方法都是基于单个数据源来预测目标项目,通常情况下,多个数据源比单个源包含有更多的有用信息。直观上讲,采用多个数据源来预测目标项目可能会带来更好的性能。因此,如何合理有效地使用多个数据源用于异质缺陷预测是一项非常有意义的研究工作。(5)执行跨项目缺陷预测的一个先决条件是这些数据源可以从其它公司中获得。在实际应用中,由于数据的隐私问题,大多数的数据拥有者并不愿意共享他们的项目数据。因此,为了促使数据共享,在数据拥有者发布他们的数据之前,如何保护公司中数据的隐私问题是一项非常重要并亟待解决的研究工作。本文针对目前异质软件缺陷预测中的线性不可分、类不平衡、混合项目数据、多源以及隐私保护问题进行了研究,并取得了一些创新性的研究成果:(1)针对线性不可分问题与类不平衡问题,提出了一种基于代价敏感迁移核典型相关分析的异质软件缺陷预测方法。具体地,为了处理线性不可分问题,该方法首先采用迁移核典型相关分析技术把源数据和目标数据分别映射到高维非线性核空间,然后再把它们投影到一个公共的子空间中。在这个公共子空间里,源与目标项目之间的数据分布变得更相似,不同类别之间的可分离性变得更好。为了处理类不平衡问题,该方法在迁移学习过程中有效地集成了代价敏感学习技术,为源数据中的缺陷与无缺陷类分别赋予不同的代价权重。通过有效地组合迁移核典型相关分析与代价敏感学习技术,该方法可以提高异质缺陷预测模型的性能。在28个项目上进行广泛实验,结果表明了 CTKCCA方法的有效性。(2)针对混合项目数据问题与类不平衡问题,提出了一种基于代价敏感标签与结构一致性单向投影的异质软件缺陷预测方法。具体地,为了能够有效地使用源项目中的数据和目标项目中少量的标记数据,该方法采用基于标签与结构一致性单向投影的域自适应学习技术把源数据变换到目标数据子空间,来更好地匹配它们之间的数据分布,同时保留源数据的结构信息。为了缓解类不平衡分布带来的影响,该方法在域自适应学习过程中有效地结合了代价敏感学习技术,并同时为源和目标数据中的缺陷与无缺陷类分别赋予不同的代价权重。在30个项目上进行广泛实验,结果表明了 CLSUP方法的有效性。(3)针对隐私保护问题与多源问题,提出了一种基于多源与隐私保护的异质软件缺陷预测框架。具体地,为了有效地对源数据进行加密保护,设计了一种基于稀疏表示的双混淆算法。该算法采用基于稀疏表示的近邻选择器为待加密的模块分别选取一个缺陷和一个无缺陷模块来进行两次混淆。为了能够有效地使用多个数据源,基于混淆后的数据,设计了一种基于多源选择的流形鉴别对齐算法。对于一个给定的目标项目,此算法递增地选取与其数据分布相似的源项目。最后,基于精选的项目进行多源异质缺陷预测。在28个项目上进行广泛实验,结果表明了隐私保护算法SRDO与多源异质缺陷预测方法MSMDA的有效性。
其他文献
竖井静水注浆抛碴构筑止水垫洛阳市龙门煤矿张化民,刘志刚洛阳市龙门煤矿诸葛井风井施工中,因砾岩水突出而淹井,后用静水抛碴注浆形成止水垫,再经注浆成功地堵住了水。这种方法简
体育高等教育推进人文教育,是社会主义建议贩现实需要以及对我国体育高等教育的总体反思决定提人类历史发展的必然.人文教育是创新能力的文化底蕴,创新思想的根本保证.人文教
在高中数学课堂教学中,要高效地完成课堂教学任务,需要教师和学生积极的参与到教学活动中,在教学过程中,双方进行有效的信息传递,是教师的教学设计能真正做到从学生的实际出发,发展他们的数学思维。在教学中,教师要充分发挥学生的学习主体性,让他们积极地进行知识探究。  高效课堂课堂氛围数学情境多媒体在高中数学教学中,教师不仅要让学生掌握教材中的知识点,还需要培养他们的数学能力,让学生在探究活动中能够运用已有
本文主要通过学期《小微企业管理》课程教学思政教育实践,反思课程教学设计对教学对象所带来的课程教学效果。进一步分析课程思政对教学对象、教学主体所带来的作用及变化,培
Time: October (十月) 1st  Place: in the forest  Characters: Mother Bear, Little Bear, Monkey, Rabbit    编者注:和同学们一样,小熊在新学校上学已经一个月了,这一个月小熊对学校的感觉如何?看了SceneⅡ你就知道了。而对于同学们而言,这一个月里你们的英语水平又提高了多少呢?通过下面的文章检测一下自己吧
作者通过查阅文献资料、理论实践、经验分析的方法,从教育学、心理学和医学生物学三个角度,论述了几种加速运动性疲劳恢复行之有效的方法和手段.
0前言阳煤平原化工有限公司化肥一厂1#尿素装置(100kt/a尿素)和2#尿素装置(180kt/a尿素)分别在1999年和2000年建成投产。2套尿素装置共用1套循环水系统,同时该尿素装置循环水还供合
1、A big black bug bit a big black bear,made the big black bear bleed blood.  大黑虫咬大黑熊,大黑熊流血了!  2、A bloke’s back bike brake block broke.  一个家伙的脚踏车后制动器坏了。
期刊
在阅读复习中,结合学生自身的阅读能力,结合文体特点,给学生整理一条整体感知和解读文章的思路,提高解读的针对性,是一种行之有效的策略或办法。以冯骥才的《老母为我扎红》
《中学生英语》初一版与人民教育出版社新目标英语(Co for it!)同步,以培养七年级新生良好地英语学习习惯、兴趣十足地学好英语为宗旨。再现英语国家文化、展示中外校园生活,集知