问题报告和代码提交间缺失关联恢复方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhuxu19860802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题报告和代码提交之间的关联在软件验证和维护方面起着重要的作用。然而,在实际软件项目中,关联信息并不总能在软件的开发或维护的过程中被明确提供。目前,最常见的做法是依赖枯燥且极易出现错误的人工检查方式实现缺失关联的恢复。  问题报告和代码提交的提交日志、源代码文件之间通常存在相似文本,大量研究基于该假设设计并实现了自动化的缺失关联恢复方法。然而,仅依赖问题报告和提交日志、源代码变更间的文本相似性,难以获得令人满意的自动化关联恢复方法。  本论文基于对已有方法的分析,聚焦“如何合理使用代码提交相关文件构建有效关联恢复方法”和“如何使用有限的真关联数据构建有效关联恢复方法”这两个关键问题。本研究工作的主要贡献有:  1.对代码提交中文件与修复行为的相关程度进行了分析,提出了一种新的关联恢复方法FRLink。FRLink方法引入了非源代码文件以增加更多可能的相似文本,同时,该方法过滤了代码提交中与问题修复无关的源代码文件,减少了噪音数据,实现了对缺失关联的恢复。通过对比已有的研究,本论文说明了非源代码文件的引入,以及对代码提交中与修复无关的源代码文件的过滤,能够有效提高缺失关联恢复方法性能。  2.在FRLink方法中非源代码文件对于方法性能的提升起到了很大作用。为了验证该发现的通用性,理解性能改进的具体原因,本论文进一步讨论了非源代码文件在关联恢复方法中的作用。基于FRLink方法,在18个开源项目上验证了非源代码文件的作用。通过经验学习,发现对于问题报告,非源代码文件能够提供比提交日志更多的相似信息。多数的软件项目中,通过在关联恢复方法中包含非源代码文件,可以过滤大量的假关联,同时识别更多的真关联,使缺失关联恢复方法的性能获得的提升。  3.实际软件项目中,由于关联缺失问题的普遍存在,可以用于模型训练的真关联通常十分有限。本论文指出使用真关联和假关联数据实现的关联恢复方法,在仅能获得少量真关联的情况下,性能下降十分明显。实际上,将缺失关联问题建模成为基于正例和无标记数据学习的问题,可以有效改进关联恢复方法性能。基于这一思路,本论文对FRLink方法做出了改进,提出了一种基于正例和无标记数据的增强关联恢复方法PULink,并和FRLink进行了比较。结果显示,PULink方法相比于FRLink,在数据集中仅包含少量正例的情况下,依然能够有效恢复缺失关联数据。
其他文献
学位
随着Internet服务发展的需要,用户对于网络服务性能水平提出了越来越高的要求,甚至会就服务水平与ISP签订合约。但是,现在的网络却面临着诸多复杂的问题:基于宽带的应用对于
本文首先提出了一种新的网络应用:无线终端通过AP接入校园网,从而实现校园网中无线终端之间的语音通信,校园网的宽带为这一应用提供了必要条件。接着,本文从基于H.323协议的VoIP
随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于其性能、扩展性的不足以及价格昂贵等方面的缺点难以满足
该文论述了面向对象的炉型管理系统的设计和实现.针对炉前操作人员对炉型管理的新需求,提出了采用基于十字测温边缘温度、炉墙温度和理论燃烧温度计算炉墙粘结厚度的理论和方
空间光照条件使得天基图像对比度远高于地面图像,这就导致了图像中空间目标的细节信息流失。为了解决这一问题,本文以Sandroid卫星平台为基础,研究设计了一套能在轨实时运行的高
本文首先介绍了网络拓扑发现的背景和意义。指出网络拓扑发现可以分为逻辑拓扑和物理拓扑两种情况。然后详细介绍了逻辑拓扑发现的研究现状,分析比较了常用的几种算法。其次介
公交车体广告是一种高频率的流动广告,其覆盖范围广,信息传递效果好,近十年在城市中高速发展,成为越来越受企业欢迎的品牌推广形式。然而,如何快速生成公交车体广告投放方案(即线路
从第一台计算机冯·诺依曼机诞生至今的半个多世纪以来,计算机科学与技术对现代科技产生了深远影响并已渗透到人类生活的方方面面。在多媒体领域中,如何有效地处理、存储、显示
随着网络的开放性、共享性和互连程度的不断扩大,特别是Internet的出现,网络的重要性对社会的影响也越来越大。网络上各种新业务的兴起,如电子商务、电子政务、网上银行等,使