软件缺陷预测中数据预处理机制的研究与系统构建

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:corbet2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,各种各样的计算机软件广泛应用到了各行各业中。但是,在软件开发和维护的过程中,软件出现缺陷难以避免。软件缺陷预测通过挖掘历史数据,构建模型,以预测软件中潜在的缺陷模块。软件缺陷预测中存在一些问题亟待解决,例如数据不平衡,维度灾难等问题。然而,目前的不平衡数据处理的算法普遍基于K近邻思想,计算量大,容易受到噪声数据影响。而目前的特征选择算法不能很好消除软件缺陷数据集中的不相干特征和冗余特征。本文针对软件缺陷预测中的不平衡数据处理技术和特征选择方法进行了深入的研究和探索,本文主要的研究工作如下所示:(1)总结目前的软件缺陷预测中不平衡数据处理算法,分析其优缺点,并提出了一种新的基于密度的过采样算法。DBSCAN算法在处理簇的边界样本时不严谨,我们针对此问题优化了DBSCAN算法,使聚类更加合理。结合优化的DBSCAN和SMOTE,本文提出了一种基于密度聚类的过采样算法。首先用优化的DBSCAN聚类算法将少数类数据分为三类,分别是噪声、核心样本和边界样本,然后删除少数类的噪声样本,最后采用不同的策略对核心样本和边界样本进行过采样。实证研究中,在NASA软件缺陷数据集上,将该算法和几种经典的过采样算法进行对比,结果表明,该算法能有效解决软件缺陷预测中数据不平衡的问题。(2)总结现有的软件缺陷预测中特征选择算法,分析其优缺点,针对传统的过滤式特征选择算法不能很好地解决软件缺陷数据集中存在冗余特征的问题,提出一种基于聚类的特征选择算法。首先该算法利用ReliefF算法计算特征和类标之间的相关性,对特征进行排序,去除无关特征,然后根据其余特征之间的关联度对特征进行聚类,最后选择每个特征簇的代表性特征。该算法考虑了特征间的关联性以及特征与类标的相关性,能有效去除冗余特征和无关特征。实证研究中,在NASA软件缺陷数据集上,将该算法和几种经典的特征选择算法进行对比,结果表明,该算法能有效解决软件缺陷预测中的维度灾难问题。(3)在上述过采样算法和基于聚类的特征选择算法的基础上,本文设计并实现了软件缺陷预测数据预处理系统。客户端包括上传模块、过采样模块、特征选择模块、算法对比模块。服务器包括数据解析模块、系统算法模块和算法对比模块。该系统能够对软件缺陷预测数据集进行过采样和特征选择,对比不同算法,清晰准确的展示软件缺陷预测的结果,有利于减低软件开发和测试的时间和成本。
其他文献
利用深度学习解决自然语言处理任务已成为当下主流。深度学习的本质是利用计算机构建神经网络,去模拟一个通用的、具有良好泛化性能的黑盒函数达到识别与预测的目的。研究表
随着同性恋维权运动的不断高涨以及美国与台湾同性婚姻合法化的相继实现,同性婚姻合法化的浪潮再一次在全世界范围内被掀起。在我国,随着国民经济的不断发展,改革开放的逐步深入,以及国际地位的日益提高,越来越多的境外人士到中国来旅游,工作,学习以及生活,其中不乏同性婚姻者。然而,由于我国不承认同性婚姻,因此对其权利如何进行有效保护则是我国面临的重大课题。论文以适度承认境外同性婚姻,维护境外同性婚姻者的合法权
苏州市国资委日前获悉,苏州市城市轨道交通近期建设规划(2016~2022年)及线网规划环境影响报告,已于近日正式获得国家环保部批复。这将为相关建设规划的报批工作打下良好的基
国有林经营计划是做好国有林经营工作的前提和基础,科学制定和严格实施森林经营计划,是规范国有林经营,提高森林质量,实现可持续发展的重要手段。目前,我国国有林森林经营计划制定中存在许多不足之处,对比研究林业发达国家的森林经营计划,有利于分析我国森林经营计划中存在的问题,更好地借鉴相应的解决措施。本文对美国国有林森林经营计划的制定过程、计划内容以及相关法律背景等多方面进行了综合性分析,并结合我国国有林森
本文以汽车、航空等工业领域常见的壳体零件为应用对象,利用Al-SiO2反应体系设计出满足其强度、硬度等性能要求的原位α-Al2O3p/AlSi9Cu3复合材料,采用钨极氩弧熔覆与重熔稀释相结合的制备工艺,在高能超声辅助下成功解决了原位反应以及颗粒分散等技术问题,并对制备出的α-Al2O3p/AlSi9Cu3复合材料进行了挤压铸造成型研究。借助XRD、OM、SEM、TEM以及EDS等方法,分析了钨极
随着温室气体的大量排放,全球变暖问题日趋严重,节能减排已成为世界各国关注的重点。建筑业属于排放温室气体最多的行业之一,在建筑全产业链的各个阶段均会消耗大量能源并产
选择甘薯品种安薯07的自交结实种子进行培育,对472株自交后代的最长蔓长、单株分枝数、茎粗、单株结薯数、单株鲜薯质量等主要农艺性状进行了相关性和通径分析.结果表明:在单
研究背景:前期研究表明,以白杨素(Chrysin,5,7-二羟基黄酮,ChR)为先导化合物,设计和合成的系列衍生物即7-二氟亚甲基-5-取代烷氧基黄酮对人胃癌细胞增殖活性具有抑制作用,其中7-二氟
针对汽车覆盖件冲压过程变形复杂的特点,对某型号汽车前围板零件拉深过程进行数值模拟,分析压边力及拉延筋的变化对该零件成形效果的影响。通过成形极限图优化压边力及拉延筋