基于主动半监督学习的软件缺陷预测方法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:xie_e
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在软件开发中,确保软件质量是一项既消耗资源又费时的过程:包括手工代码审查,技术评审会议和密集的软件测试等活动。软件缺陷预测是软件工程中的一个重要的研究课题,它可以帮助我们更好地了解和控制软件质量。通过预测软件模块的缺陷状况,软件开发组织可以将有限的资源集中于容易出现缺陷的模块,从而能够及时发现并排除缺陷,有效地提高软件产品的质量。  目前的缺陷预测技术主要是基于足够多的历史项目数据,但在实际应用中,一方面,因为历史项目数据来自不同的项目或不同的组织,具有不同的数据分布,因此,使用这些数据建立的预测模型往往具有较弱的适应能力。另一方面,通过手工标记模块的缺陷情况需要花费高昂的标记代价,因此,可用的标记数据是非常有限的,不能用来建立有效的预测模型。  针对上述问题,本文深入研究了软件缺陷预测的相关理论和现有技术,重点探讨了主动学习和半监督学习方法在软件缺陷预测方面的应用,为解决上述问题给出了有效的方法。本文的主要研究工作如下:  (1)给出改进的半监督学习方法,用来解决样本分布不同和标记数据有限的问题。不同于以往的研究,该方法不需要历史数据,而是从当前项目中选择与该项目样本分布最为相似的数据集作为初始标记数据集,建立一个基于该样本的初始分类模型,进而利用大量未标记数据迭代地改进分类模型。在公共数据集上的实验表明,该方法比传统的机器学习技术具有更好的预测性能。  (2)引入主动学习策略,用于减少人工标记的代价。本文给出了一种主动半监督学习方法,该方法将主动学习和半监督学习结合起来,主动地选择一些信息含量大的未标记数据进行标记,同时自动利用剩余的未标记数据,从而在标记代价最小的情况下构造出强泛化能力的分类器。实验结果表明,该方法是有效的。
其他文献
移动Ad Hoc网络是由一组具有无线通信能力的移动终端组成的临时的自组织网络。在这个网络中,每个终端既可以作为通信主体提供服务,同时也转发其他终端发送过来的数据分组,行
随着计算领域资源规模不断扩展、处理能力日益增强,资源种类丰富多样,寻求新型的计算机理与模式成为一大热点研究课题,而虚拟化技术为此提供了良好的契机。随着x86服务器市场的
21世纪,是知识和信息的时代,人们渴求各种有用的信息来获得美好的生活。学习机的诞生和普及,改变了人们传统的获取信息的方式,尤其改变了从纸质的书本获取知识的方式。一台便
本文给出了动态模糊逻辑(DFL)程序设计语言的基本数据类型及其抽象语法结构。在此基础上,根据范畴论和指称语义的原理,给出了动态模糊逻辑程序设计语言的范畴描述,定义了它的
二值图像在现实生活中被广泛的应用,对此进行产权保护和信息安全显得尤为重要。目前提出了大量的水印嵌入算法,但是大都是对于灰度图像或者音频、视频多媒体,不能直接应用到
伴随着大数据时代的到来,各类组织机构积累了海量数据。数据挖掘就是从海量的、不完备的、随机的用户数据中依据某种算法提取蕴含在其中的先前未知的、潜在的、有价值的信息和
功能性磁共振(fMRI)已经成为脑科学研究的重要手段和工具。它具有其无损性、高速性、高分辨率、可同时获得结构与功能图像等一系列优秀性能,被广泛应用于脑的实验及临床研究。
氧化沟系统是活性污泥工艺的一种实现方式。对氧化沟系统水质参数相关性的正确模拟是实现水质参数在线实时控制的重要课题。人工神经网络具有自组织、自适应、容错性、并行性
随着Intemet的普及和电子商务的发展,推荐技术已逐渐成为信息检索平和信息过滤领域的研究热点。现有的推荐系统一定程度上满足了人们获取信息的需求,但在许多应用中,仅仅考虑
功耗感知数据库管理系统是绿色计算中的一个研究热点。连接操作是直接影响数据库系统整体性能、功率的一类核心操作,针对连接操作的功率控制成为当今数据中心面临的关键问题。