软件缺陷预测中高维数据处理研究

来源 :青岛科技大学 | 被引量 : 1次 | 上传用户:yoyoyu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前软件的规模和复杂度日益增长,因此软件可靠性备受关注。在软件工程中,如果可以找出软件系统中有可能存在缺陷的模块及其分布,对软件开发者合理配置资源及提高软件质量起到重要作用。软件缺陷预测(software defect prediction,简称SDP)技术便是对软件模块中是否存在缺陷进行预测,根据历史数据以及已经发现的缺陷等软件度量数据,预测哪些模块有出错倾向。合理的预测软件缺陷可以有效地帮助测试者快速定位并弥补软件缺陷,从而达到显著减少软件开发成本和提高软件可信度的效果。目前的研究通常将缺陷预测的实现形式化为一个机器学习问题,很多机器学习技术被用于缺陷预测。然而,现有的缺陷预测方法在实际应用中还存在许多问题。例如,这些方法的性能不够稳定,在高维数据情况下(如存在大量冗余、无关的度量元),预测精度不高,而在实际应用中高维数据是很普遍的。另外,由于有缺陷类(又称“正类”)通常远少于无缺陷类(又称“负类”),即缺陷历史数据具有类别不平衡性,容易造成预测模型更倾向于负类,从而降低了正类的预测精度。由于单分类器分类能力有限,不能有效处理不平衡数据,所以,很多学者利用集成学习方法来进行缺陷预测。本文针对软件缺陷预测中的高维、类别不平衡等问题进行了系统的研究。首先,为了处理缺陷预测中的高维、不平衡数据,我们对现有的过采样方法与特征选择方法在缺陷预测中的应用效果进行了对比研究;其次,将粗糙集理论和知识粒度等概念引入到特征选择中,提出一种新的信息熵模型——调和粒度决策熵,并由此构建出一种基于调和粒度决策熵的特征选择算法FSHGE;第三,针对单一分类器分类能力有限,缺陷预测效果不好的问题,我们提出一种多模态选择性集成学习算法SE_RSFS,并利用SE_RSFS来进行缺陷预测。SE_RSFS算法利用前面所提出的特征选择算法FSHGE以及重抽样技术来同时对训练集的属性空间和样本空间进行扰乱,从而实现一种高效的多模态扰乱。
其他文献
随着人工智能和信息化时代的到来,大数据的存储要求不断提高,目前大数据主要存储在高容量高性能的半导体存储器中。国内市场上的半导体存储器分为易失性半导体存储器和非易失
作为衡量经济和科技实力的标志,深空探测一直是各大强国致力发展的领域。作为新世纪深空探测的热门方向,小行星和彗星等小天体探测必须加快研究步伐。随着计算机和图像处理技
近年来,随着全国经济的高速发展,经济犯罪现象频发,犯罪类型屡屡增加,涉及洗钱犯罪的可疑交易数量也与日俱增,中国人民银行每年接受的反洗钱可疑交易报告也越来越多,打击洗钱犯罪行为的工作迫在眉睫。而随着互联网时代的到来,犯罪行为也和互联网越来越密切,面临着犯罪手段多样化,犯罪隐蔽性高的特点,洗钱案件的侦查工作也更加困难。在金融领域,反洗钱得到了深入的研究,并形成了一系列理论,但反洗钱领域的研究方法都是从
随着地面移动通信系统的不断发展,最新的4G标准也已经研究成熟并投入运营,但卫星移动通信系统仍停留在3G的水平,并且由于卫星系统本身性能就比同级别的地面移动通信系统差,因
近年来,气象领域的专家提出了利用城市微波网络监测城区降雨情况的研究方向,通过对微波网络路径上雨衰值的测量,以及雨衰与路径雨强关系模型的建立,来反演得到微波路径上的雨
随着人工智能技术的发展,人体行为识别成为机器人视觉领域的重要研究方向之一,被人们广泛应用于安防监控系统、医疗诊断监护、人机交互等领域。如何使得机器人能够识别人体的
预判就是指对当前还未发生或正在发生、还不够明确的事件进行预先的估计,并推测事物将来的发展趋势,以此帮助其掌握事物发展的规律等状况,以此做出最合理的判断与决策。网球
机器人系统具有快速、准确、高效等优点,因此机器人被广泛应用于工业、农业、军事等各个领域。在实际应用中,机器人又是具有强耦合、不确定性和干扰的非线性系统,如未建模动
眼睛是人体最重要的感觉器官,里面充满了房水,正常的房水流动能够为眼部组织提供必要的营养物质,维持正常的生理活动。然而,许多眼科疾病的发病机制、发展过程以及药物治疗等
QG学院的基建需要大量资金,若采用传统模式建设教育部门将承担沉重的资金压力。引进社会资本采用PPP模式,既可增加优质高等工科教育供给,满足社会公共需要,又可缓解政府资金