代价敏感的混合软件缺陷预测模型

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhaoct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网的高速发展时代,软件的规模和复杂度不断增大,软件中存在的缺陷如果不被及时发现,可能会对相关领域产生巨大的影响。因此,在软件尚未发布之前,找到隐藏在软件中的缺陷是一个急需解决的问题。在软件缺陷预测上,机器学习算法发挥着重要作用,有着较好的效果,但是在现实的软件项目中,软件缺陷预测依然存在如下几个问题。(1)测试软件模块代价太高,只能对少数的软件模块进行测试,即只有少数的数据样本被贴上标签;(2)不同的错分带来的代价不一致,将有缺陷的数据样本判断为没有缺陷明显比把没有缺陷的数据样本判断为有缺陷的代价大;(3)软件缺陷预测的数据集具有类不平衡的特点,有缺陷的数据样本只占少数;(4)现有的缺陷预测模型没有考虑源代码中隐含的语义信息。本文针对上述问题,提出了一种基于代价敏感的混合软件缺陷预测模型,主要工作内容如下:1.提出改正的半监督支持向量机,采用十折交叉验证法抽取训练数据集和测试数据集,进行多次重复实验,避免出现偶然性;同时半监督支持向量机能够利用少量标签数据样本和大量没有标签数据样本一起构建缺陷预测模型。2.提出基于代价敏感的支持向量机,通过给予“将有缺陷数据样本预测为没有缺陷”较高的代价、给予“没有缺陷的数据样本预测为有缺陷”较低代价,能够解决数据集类不平衡的问题,并使得错分代价最小。3.提出把特征定位融入软件缺陷预测中,通过对缺陷特征和软件源代码进行主题建模,得到缺陷特征和代码中的主题信息,进行相似度匹配,把分类的结果与特征定位的结果进行线性组合,最后得到混合软件缺陷预测的结果。总之,本文结合特征定位和半监督学习,提出了一种低代价的软件缺陷预测模型,利用Lucene、Eclipse JDT Core等开源软件对本文缺陷预测模型进行验证,发现本文对标签样本少、代价率高的数据结果提升的最为明显。
其他文献
笔者认为《傲慢与偏见》描绘了19世纪英国女性不平等的社会地位和尴尬的生存境况,并成功地塑造了一位女性主义先驱,讴歌了伊丽莎白对男女平等和建立在爱情基础之上的幸福婚姻
马兜铃酸(aristolochic acid,AA)是马兜铃酸肾病(aristolochic acid nephropathy,AAN)的致病因素,已受到国际上的高度重视,有关AA肾毒性机制的研究目前已成为毒理学领域的研
玛格丽特·米切尔的《飘》以"乱世佳人"郝思嘉为主线,反映了主人公的感情纠葛和社会现实,郝思嘉更是因其独特的人物性格而吸引着无数读者。本文从郝思嘉的爱情观、生活观、金
本文利用Grice的"合作原则"分析了作者如何利用四条准则的违反来塑造人物性格,从而赋予人物以丰富的内涵,成功刻画出栩栩如生的人物性格,表达了复杂的情感,烘托了小说主题。
随着社会的进步和人民生活水平的提高,人们的健康意识不断增强,健康体检逐渐成为现代人生活水平提高的重要标志和预防保健的主要方式之一。日趋严重的亚健康问题是当前医学的
农药废水属高浓度、难降解有毒工业废水,需经过预处理后才能进入生化处理系统。介绍了近年来农药废水预处理方法的研究现状,包括混凝法、吸附法、水解法、微电解法、氧化法等
股票市场是一个资本流量运动的大系统,这是我们对于股票市场的一个极为重要的认识与判断。统计指标的设计,要由此出发,将这样一个系统的基本信息与运行状况反映出来。一切统
<正> 目前面临十大生态难题之一的“垃圾包围城市”的问题非常突出。随着城市生活垃圾的不断增加和能源短缺的态势日趋严重,人们已经认识到生活垃圾是“放错位置的原料”,是
数学阅读是指围绕数学问题或相关材料,以数学思维为基础,用数学的方法、观点来解读、感受数学知识和文化的学习活动.本文在简要分析小学数学课堂阅读现状的基础上,重点阐述了