基于软件度量鉴别特征学习的跨项目缺陷预测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zzhijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件的多样化应用,软件规模不断扩大,复杂性日益提高,软件安全面临的挑战日益严峻。在软件的设计和程序开发过程中,不可避免的存在着软件缺陷,严重威胁软件安全。因此,在软件交付前,提前检测并修复软件缺陷,有助于优化测试资源,提高软件质量,节省人力物力成本。跨项目缺陷预测技术利用来自其它项目(源项目)中的数据,自动挖掘有效特征,训练缺陷预测模型,用于预测目标项目的软件样本是否存在缺陷。跨项目缺陷预测是提高软件开发质量和可靠性的可行的解决方案,取得了一定成效。目前跨项目缺陷预测在实际应用中仍然存在一些挑战。如何对缺陷数据的鉴别信息进行充分、有效的挖掘,是跨项目缺陷预测的关键问题。在鉴别学习的过程中,具体存在以下挑战:来自不同项目的数据分布差异导致分布不适配;已有方法通常假设源项目数据带有标签,然而实际应用中获取的样本往往是无标签的,存在对大量无标签数据的有效利用问题;不同类型的度量从不同的视图描述了同一软件模块,对来自多种软件度量的多源数据的有效信息挖掘不足。本文主要针对以上问题,基于鉴别特征学习的技术,设计相应的解决方案,从而进一步提高跨项目缺陷预测的性能。本文的具体研究工作如下:(1)针对数据鉴别信息的充分、有效挖掘问题和分布不适配问题,提出了两种基于迁移学习的缺陷预测方法:基于选择性伪标记的子空间学习(Selective Pseudo-labeling based Subspace Learning,SPSL)方法和流形嵌入式分布自适应(Manifold embedded Distribution Adaptation,MDA)方法。为了减少不同项目间的数据分布差异和充分挖掘数据的鉴别信息,SPSL联合使用子空间学习和伪标记技术。SPSL首先学习一个映射矩阵使来自源和目标项目的数据映射到公共空间,使其分布趋于相似。在该公共空间中,SPSL通过近邻预测技术和结构化预测技术对来自目标项目的无标签数据进行预测得到伪标签,然后联合来自源项目的带标签数据和来自目标项目的带伪标签数据,同时利用其中的信息更新映射矩阵。为了进一步缩小来自不同项目的数据之间的分布差异,MDA同时考虑了边缘分布差异和条件分布差异。MDA首先通过流形特征学习将高维数据映射到流形空间中,便于挖掘来自不同项目的数据的信息。其次,MDA联合使用边缘分布和条件分布,执行分布自适应学习,以减少数据间的分布差异。实验结果表明这两个方法可以充分挖掘来自不同项目的信息,解决数据的分布差异过大问题,提高预测性能。(2)研究对无标签数据的有效利用的问题,提出了鉴别性对抗特征学习(Discriminative Adversarial Feature Learning,DAFL)方法。DAFL将对抗学习框架引入到半监督跨项目缺陷预测中,以更好地解决不同项目的数据分布差异问题。DAFL由彼此竞争的特征迁移器和项目鉴别器两部分组成。特征迁移器用于挖掘来自目标项目的有标签数据和来自源项目的无标签数据的鉴别信息,同时利用数据的内在结构信息,提高数据的鉴别性。项目鉴别器在生成的特征表示上判别软件样本是来自于源或目标项目,用于减少不同项目的数据分布差异。实验结果表明该方法可以有效地挖掘无标签数据和有标签数据的鉴别信息,解决数据的分布差异过大问题,提高模型的预测性能。(3)探索解决来自多源数据的联合挖掘问题,提出了深度多视图跨项目缺陷预测(Deep Multi-view Cross-project Defect Prediction,DMCDP)方法。考虑现有的缺陷预测方法忽略了产品度量和过程度量之间的互补信息,DMCDP将基于产品度量和过程度量的软件缺陷预测建模为多视图学习问题。DMCDP设计了一个深度学习框架,用于解决同一项目上的来自不同视图的软件度量间的异质问题,同时可以挖掘视图间数据的互补性和鉴别性。考虑到来自不同项目之间的数据分布差异过大问题,设计了一个差异约束,用于减少来自不同项目间和不同视图间的差异。实验结果证明基于多视图学习的跨项目缺陷预测框架DMCDP的性能优于其它缺陷预测模型。
其他文献
1.水稻穗粒数基因SPP46的图位克隆穗粒数是水稻产量的三大构成因子之一,它主要由一级枝梗数、二级枝梗数和着粒密度决定。为挖掘籼稻重穗型不育系G46A的穗粒数基因,本研究对G46B保持系进行EMS诱变,获得一个稀穗突变体spp46。本文对该突变体spp46进行表型鉴定、基因定位与克隆等研究,主要结果如下:spp46主要表现为穗分枝数和穗粒数显著减少,着粒密度明显变稀。遗传分析表明spp46的稀穗突
学位
红花Carthamus tinctorius L.素有“亚油酸之王”美誉,普通型红花籽油中亚油酸含量可达70%以上。亚油酸(Linoleic acid,LA,C18:2Δ9,12)是植物细胞膜重要组成部分,参与植物抵御外界多种胁迫,也是多种信号分子合成的前体物质。亚油酸属人体必需脂肪酸,可降低血液粘稠度及甘油三酯含量,还可预防心脑血管疾病等。其生物合成由一系列脂肪酸合成及脱氢酶催化完成,其中ω-6
学位
随着通信与信息技术的发展,越来越多的数据充斥着生活的方方面面。在智慧城市、社交网络、智能家居、传感网络、金融与银行等应用中会产生大量非规则数据。这些非规则数据具有结构复杂、维度较高等特点,难以通过传统信号处理方法进行处理。近年来,图信号处理已经成为处理众多非规则数据的有力工具。图提供了对非规则数据和它们之间的复杂关系进行建模的能力。例如,在通信网络中的用户可以建模为顶点,而他们的信道可以建模为边。
学位
随着人类生产生活、科学探索、军事应用等由大气空间向海洋空间不断拓展和延伸,水下通信系统面临着信息传输量不断增长的压力。携带光子轨道角动量(Orbital Angular Momentum,OAM)的涡旋光束可实现多路信息在同一个水下路径中的传输,将成为提升水下无线光通信系统容量和频带利用率的有效途径,为水下无线光通信持续扩容的发展开辟了新方向。然而,涡旋光束在海水介质中传输时将不可避免的受到海洋湍
学位
干旱已成为阻碍水稻生产的首要非生物胁迫因素,开展水稻节水抗旱意义重大。其中,最有效的途径就是水稻抗旱品种培育和利用布局,这就需要进行水稻抗旱性的精准鉴定和科学评价。本研究开展了水稻川香29B近等基因导入系(NIILs)和主推品种芽期在5%、10%、15%、20%浓度PEG模拟干旱鉴定试验,川香29BNIILs苗期反复干旱胁迫试验,主推品种分蘖期和穗分化期大田抗旱性鉴定试验,川香29BNIILs、育
学位
量子信息处理利用量子力学基本原理,比如测不准定理和不可克隆原理,保证了量子信息处理的无条件安全。在基于纠缠的量子通信中,高质量纠缠是一种极其重要的资源。不幸地是,纠缠质量会因纠缠产生过程中器件不理想以及操作误差而下降。另外,在纠缠分发过程中,固有的信道噪声会进一步降低非最大纠缠态的保真度,这些不利因素都将使得最大纠缠态退化为部分纠缠甚至是混合态,进而影响量子通信的安全性和可靠性。在局域操作和经典通
学位
区块链作为一种新型分布式数据库技术,依靠其去中心化、可溯源、不可篡改等特性引起了广泛关注。本文对基于区块链技术的数据存储应用的领域和现状进行分析,归纳了当前区块链技术应用于数据存储领域的优势与不足,希望对基于区块链技术的去中心化分布式数据存储应用在更多领域的落地提供参考,同时也对基于区块链的数据存储技术的发展有借鉴意义。
期刊
苦荞(Fagopyrum tataricum)在世界各地广泛种植,产量逐年提高,其营养成分均衡,富含芦丁、矿物质、氨基酸等,是类黄酮物质的天然膳食来源,深受人民喜爱。同时,因其具有抗盐、抗贫瘠、抗重金属等优良性状,也是植物抗逆研究的重要材料。但由于其果皮紧贴种子,坚硬不开裂,在生产中很难有效脱壳。目前采用高温熟化再冷却的脱壳方法,不仅降低营养成分,而且增加生产成本,影响经济价值。难脱壳严重制约苦荞
学位
随着移动互联网的迅猛发展,无线数据量呈爆炸式增长,引发对频谱资源的需求急剧增加。尽管使用毫米波、太赫兹等高频电磁波可缓解频谱缺口问题,但因其绕射能力较差,尚未能满足未来移动通信广域覆盖的需求。因此,频谱的利用不仅要着眼于高频资源,还需充分挖掘低频资源。目前,不断涌现的各种无线电业务造成了低频资源日趋紧张。同时,传统的固定频谱分配方式已无法适应频谱需求的动态变化,产生了频谱闲置和利用不均匀等问题,加
学位
华阳川铀矿位于华北板块南缘小秦岭构造带西部,是一个以铀、铌共生为主,并伴生铅、稀土的多金属矿床。华阳川地区铀矿类型多样、成因复杂,具有较好的铀成矿条件和资源潜力。由于深处秦岭北坡,地形陡峻、覆盖严重,开展地表找矿工作十分困难。已往铀找矿工作采用水化学法圈定放射性异常+地面伽玛测量圈定矿化体的方法组合,一直受限于地形陡峻和地表覆盖的困扰,找矿效果不佳、效率低下。本次工作在对已有研究成果和地质资料预研
期刊