基于聚类的软件模块缺陷预测方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:gaoxuan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件工程迅速发展,软件系统复杂度提高,软件可靠性问题成为人们关注的焦点,而软件缺陷威胁着软件的可靠性,如何在软件发布之前预测缺陷成为了一个亟待解决的问题。传统的静态缺陷预测关于缺陷分布的研究大多数是基于有监督的方法,需要先验知识,而在实际软件工程应用中,我们不可能获得大量的已知类标注模块,所以无监督的软件缺陷预测更具应用前景。Halstead度量元、McCabe度量元和基于源代码的度量元组成了软件缺陷度量元,本文在此基础上,采取主成分分析技术,选择出有效度量元的线性组合,降低了数据维度,提高了算法预测效率和预测精度。本文提出了一系列针对软件缺陷数据集的预处理方法,包括补全缺失值,剔除错误数据,Z-SCORE标准化数据等。最后,基于聚类技术提出了两种改进的软件缺陷预测方法:①模糊C均值算法常常会因为初始聚类中心的不同而得到不同的结果,这是爬山思想的算法收敛到局部最优解造成的,为了克服这个缺点,引入遗传算法和模拟退火对模糊C均值算法进行改进,并对NASA promise repository的6个软件缺陷预测数据集进行实验,在不需要类标注的情况下,其预测精度在少部分数据集上接近,大部分数据集上超越经典有监督方法,而与同为无监督方法的K均值相比,提高尤为明显,表明了该预测方法的有效性。②针对改进模糊C均值只能发现球状边界聚类的固有弱点,对基于密度的聚类方法进行研究,提出了一种对k-dist图进行分区处理的改进的DBSCAN算法,同时解决了DBSCAN算法在类密度不均匀时,聚类效果不理想的问题。在相同的数据预处理步骤下,同样用改进的DBSCAN算法对NASA promise repository的6个软件缺陷数据集进行实验,与改进模糊C均值算法进行对比,发现改进DBSCAN算法在低维度情况下,预测精度高于改进模糊C均值算法,在高维度下,改进DBSCAN算法预测精度低于改进模糊C均值算法。两种算法和静态缺陷预测领域传统经典算法比较,优势明显,不需要类标注,符合工程实际,具备较高预测精度和较高鲁棒性,为软件缺陷静态预测领域提供了新思路和方法。
其他文献
最新一项猕猴桃基因组解码研究指出,研究发现猕猴桃的全部39 040条基因中有多条与其他物种,如番茄和马铃薯存在相似性。这项研究还揭示了发生在数百万年前猕猴桃基因组上的两
本刊讯近日,笔者在上海果品市场走访中发现,今年草莓产量锐减,价格高涨。目前市场上主打品种红霞、章姬等草莓零售价60~76元/kg,浙江草莓98元/kg,另有“长柄玫瑰”草莓仅20个
环签名是在如何匿名泄露秘密的背景下提出的一种签名技术,它无需可信中心及签名者群建立的过程,且对于验证者来说签名人是完全匿名的,故环签名有时也被视为一种特殊的群签名.
经济全球化是大势所趋,但近年来逆全球化有所抬头,并对包括中国在内的新兴市场经济国家和发展中国家的未来发展有着直接的影响。中国积极发展自贸区,融入全球经济,但是一些发
谱图理论是代数图论和组合矩阵论共同关注的一个重要研究方向.混合图的Hermite谱理论是近年来谱图理论一个热点研究课题,主要通过建立混合图Hermite谱参数与混合图结构性质之
21世纪以来,计算机网络得到了飞速发展,随着科学技术的提高,计算机网络越来越复杂,应用也越来越广泛。值得一提的是,受到网络自身因素的限制,数据在传输过程中会受到一定的影响,通常所得到的数据变得不完整,故而,如何利用可获得的测量数据,对系统状态进行有效地估计,成为摆在我们面前的有一大难题。本文将利用非线性的测量输出数据,提出新型的鲁棒状态估计方法,并在此基础上将该算法进一步应用到复杂网络的状态估计中
学位
探讨585 nm脉冲染料激光机联合平阳霉素治疗血管瘤临床效果.取平阳霉素8 mg,用2%利多卡因3ml溶解,瘤体皮肤正常消毒,用药量的多少根据瘤体大小而定,然后采用585 nm脉冲染料激
张量的概念是十九世纪由Gauss,Riemann和Christoffel在微分几何的研究中提出的。在二十世纪初期,Ricci,Levi-Civita等将张量解析进一步发展成为数学的一个分支。1916年,Einstein
在实际问题中,粘性阻尼是不可避免的,而且与色散一样起着十分重要的作用。由于考虑了阻尼和耗散的影响,所以带有阻尼项的对称正则长波方程是反映非线性离子声波运动本质现象
接触力学是一门研究两物体因受压相触后产生的局部应力和应变分布规律的学科。接触力学广泛应用于工业生产,而随着纳米科学与技术的发展,接触力学的应用更可以扩展到微粒子和纳