基于图神经网络的重复Pull Request检测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:Viola2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在愈发流行协同开发的时代,Git Hub成为了众多开发人员以及团队的首选,参与人员通过发起Pull Request进行项目功能的添加或者bug的修复工作,在提交完Pull Request后,需要项目的核心审核人员进行合并、修改或者拒绝操作。对于流行的Git Hub项目,会有众多的Pull Request,由于协同开发的原因,不同的开发人员可能会针对同一个问题发起Pull Request,这会引起项目审核人员以及开发人员后续工作量的增加。目前Git Hub中没有自动化的检测工具来检测重复Pull Request,重复Pull Request的人工检测难度也非常大,因此进行重复Pull Request的检测研究具有重要意义。本文提出了一种基于图神经网络的重复Pull Request检测方法。首先计算Pull Request标题、描述、commit信息、变更文件列表、变更代码信息和代码更改位置的相似性,然后基于相似性与Adaboost算法进行重复Pull Request的检测工作,最后将检测方法与传统方法进行对比。在方法中针对Pull Request变更代码相似性计算引入了图神经网络模型,在代码片段的抽象语法树基础上添加了表示数据流和控制流的边,形成了一种基于抽象语法树(Abstract Syntax Tree,AST)的程序图,更好的解决了代码的语义相似问题。在Pull Request的变更代码文件输入图神经网络模型前,进行了预处理工作,将抽象语法树结合diff信息(diff信息是指通过git diff指令得到的不同版本间的代码变更信息)实现了方法级别上的重写,提升了研究的正确性和合理性。研究中选取Python项目和Java项目进行了重复Pull Request检测工作,在对Python项目的研究中,该方法相比于现有方法在Recall-rate@20方面提升了22%左右,在引入图神经网络并对变更代码文件预处理的Java项目研究中,该方法相比于现有方法在Recall-rate@20方面提升了25%左右。在特征值的精度重要性研究中,去除变更代码特征值后,精度下降30%-45%,得出变更代码是最重要的一个特征值。
其他文献
微透镜阵列是近年来的研究热点之一,已在各个领域有着较为广泛的应用。有机电致发光二极管(Organic Light Emitting Device,OLED)作为近年来发展迅速的一种光源,它的优点包括视角广、光谱接近自然光、能耗低、寿命长、发光效率高,可柔性显示等等,被认为是继液晶显示(LCD)后新一代的照明和显示器件。但是由于OLED器件衬底与空气介质之间存在较大的折射率差,光子产生了反射与折射的
学位
在当今社会,管道结构的应用非常广泛。如下水道排水管道,自来水厂输水管道,天然气输送管道等等。这些应用在各个领域各个角落的管道,将整个人类社会连接起来,其重要性不言而喻。这些管道若是出现损伤,又无法及时准确得检测出来,将会给社会与国民经济造成重大损失。在此背景下,对管道结构进行损伤检测具有重要意义。在目前结构健康检测技术中,超声导波无损检测技术具有检测效率高,成本低等优势,已在管道结构上实现了一定范
学位
随着移动互联网的快速发展和物联网的出现,未来的移动通信技术必须要具备高速无线通信、无缝连接、强安全性和超低延迟通信的能力。然而,传统的射频网络由于频谱资源匮乏,无法满足这些高要求。因此,可见光通信(Visible Light Communications,VLC)技术由于具有频谱资源丰富、高数据速率、绿色环保、无电磁干扰、保密性好等优点,近年来已经成为工业界和学术界的研究热点。目前,已经有许多工作
学位
小目标检测的应用场景广泛,也是目标检测与识别的研究难点,因此,提高小目标检测的精度具有重要的理论和现实意义。然而,现有的目标检测算法在小目标的检测任务中效果差强人意,为提升该任务的检测精度,本文提出一类基于YOLOv4(You Only Look Once version4)模型的泛化改进算法,通过结合空间注意力和通道注意力网络来增强目标特征图的权重,并将其命名为混合注意力网络(Mixed Att
学位
随着现代通信系统的发展,对系统可移植性的要求越来越严格,宽带带通滤波器的小型化成为了一个具有挑战性的问题。与此同时,集总元件制造工艺的提升也为电路小型化提供了新的思路,可以通过将传输线等效为集总元件从而减小电路尺寸的思路进行课题展开,以设计宽带带通滤波器为基础进行探究,主要研究内容及成果如下:(1)根据小型化等效思路,讨论分析了传输线等效集总元件网络。基于二端口网络理论分析低通网络和桥接T型网络基
学位
人体姿态估计是动作识别领域的一大研究课题,其主要研究内容是将人体特征图像进行人物识别与提取,以此描绘出人体的运动姿态。人体姿态估计主要应用于人体动作预测与位置定位的各种场景。在过去,该任务往往通过传统的图结构方法进行解决,但由于图像背景要求度高和时间开销大等原因,其识别准确度与性能欠佳。近年来,人体姿态估计的研究者不再局限于传统方法,而是依靠神经网络学习视频数据特征,以此提升算法识别率。然而,视频
学位
随着移动互联网技术的快速发展和各类智能终端的普及,诸如人脸识别、虚拟现实和自动驾驶等计算密集型应用影响着人们生活的方方面面,但是由于该类应用对算力和时延的苛刻要求,极大限制了此类应用的应用场景。在此背景下,移动边缘计算作为解决该问题的极佳范式,在近些年受到了学界的极大关注。而计算卸载技术作为移动边缘计算中的关键技术,是目前学界的研究热点,如何在不同的应用环境中采用合适的计算卸载策略是提高移动边缘计
学位
心跳频率(Heart Rate,HR)是反应一个人身心状态的重要的生理信号,对人们健康生活和心血管类疾病的防治有着很大的指导意义。传统的接触式HR测量技术需要被测者和测量仪器进行接触,可能会给被测者带来不适并且无法应对一些特殊情况比如皮肤烧伤等。随着科技的发展,人们发现由心跳引起的血管中血液体积和氧饱和度的变化会导致皮肤产生轻微的颜色变化,这些颜色变化可以被RGB传感器捕捉并用于HR测量,基于此,
学位
大规模多输入多输出(Multiple Input Multiple Output,MIMO)作为下一代移动通信系统的关键技术之一,可以显著提高系统吞吐量和频谱效率。大规模MIMO系统通过在基站端配置数百根天线为不同的用户服务,然而用户间干扰使得基站恢复发送信号具有很大的挑战。传统的信号检测方案或者检测精度低,或者复杂度高,很难在检测精度与复杂度之间取得较好地平衡。深度学习(Deep Learnin
学位
随着物联网(Internet of Things,IoT)技术的快速发展,智能应用走入千家万户,智慧生活也逐渐成人们追求的生活方式,人机交互、智能触控、安全控制广泛应用于日常生活的方方面面。2020年疫情突发,尽量减少接触成了普遍共识,其推动了非接触式感知识别技术的发展;同时疫情下的出行安全也是人们关注的焦点,当前机场车站的液体识别主要通过乘客饮用的方式来验证液体的安全性,存在着一定的安全隐患。射
学位