基于深度学习的语义代码克隆检测

来源 :天津大学 | 被引量 : 1次 | 上传用户:jianzhu119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码克隆的存在对软件系统的可维护性产生了很多负面影响,语义克隆是指语法上不同但仍然执行相同功能的代码,在过去提出的各种检测代码克隆的方法中很少能对语义克隆进行检测。语义克隆检测是一个复杂的过程,因为源代码的语法和语义很灵活,因此选取合适的源代码中间表示对整个代码克隆检测过程至关重要。在常用的语义克隆检测的中间表示中token、AST、图较为常见。但是token携带的词汇信息对于语义克隆检测任务来说是不够的,而且其有效性受到词汇表的限制。基于AST、图表示源代码会给计算带来沉重负担。代码克隆检测不仅需要考虑准确度还要考虑效率。在本研究课题中为了充分发挥深度学习检测代码克隆的能力,同时避免使用AST、图高成本的中间表示,我们提出了一种新的基于token的源代码表示方式Token Pair Embedding(TPE),并证明其在代码克隆检测尤其是语义克隆检测上的有效性。本课题设计了一个标准的Siamese分类模型进行代码克隆检测,子网络选取基于自注意力机制的Bi LSTM网络,使用Bi LSTM可以很好的捕获序列双向的语义关系。我们从代码克隆检测常用基准中选取了三个常用的基准Big Clone Bench、GCJ和OJClone,将我们所提出的方法与最先进两种方法TBCCD、ASTNN进行了比较。实验结果表明TPE在代码克隆检测中效果显著,在Big Clone Bench数据集上所得到的准确率和召回率均要高于最新的语义克隆检测工具ASTNN和TBCCD,并且数据处理时间分别是ASTNN的36.36%和TBCCD的41.38%,模型预测时间分别是ASTNN的37.72%和TBCCD的34.13%。此外在另外两个通用的数据集OJClone和GCJ上,TPE代码克隆检测方案所获得的F值均要高于TBCCD,在数据处理和模型预测时间上都要短于ASTNN、TBCCD。此外本课题还初步研究了数据集划分以及数据集中正负样本的比例对不同模型的影响,实验结果表明数据集的不同划分方式对不同模型的影响程度不一致。
其他文献
当前,我国的涉案企业合规改革已进入深水区。为适应改革需要,法学界愈加呼吁应当将附条件不起诉制度的适用范围拓宽至单位犯罪案件。在探索设立单位犯罪案件特别程序的改革背景下,未来立法可以考虑以设立单位犯罪治理的基本原则为前提,将特别程序的适用主体从企业扩展到所有单位,采用分案处理的方式解决重罪案件企业合规不起诉的问题,严格规范合规的罪名范围和启动标准,合理配置考察期内单位的义务条款。同时,有必要对附条件
期刊
受环境不断恶化和化石燃料愈发紧缺的影响,加快新能源电网建设、大力发展分布式储能电网是当下中国电力发展的重中之重。分布式储能系统的高频高效与小型化是眼下的研究趋势,其核心构成——双向直流变换器也需要具备高电压增益、高功率密度以及高变换效率等特点。为此,本文围绕“高频高增益MultiCLLC双向直流变换器研究”的课题,从变换器的拓扑设计、特性分析、参数优化、实验验证和改进这几个方面进行论述。主要内容从
学位
对两类工艺(Ⅰ、Ⅱ类)制备的自复位形状记忆合金橡胶支座进行循环剪切试验,系统研究其在不同加载频率、加载幅值、加工工艺及预加压缩荷载工况下的剪切性能,并对产生残余应变的形状记忆合金橡胶支座进行升温自恢复及力学性能试验。研究结果表明:两类形状记忆合金橡胶隔震支座的剪切性能稳定,等效阻尼比随剪切幅值的增大而提高;通过预加压缩荷载可以大幅提高形状记忆合金橡胶隔震支座的剪切刚度和耗能能力。两类试件都能通过升
期刊
近年,人工智能辅助诊断技术在临床医学领域取得了关键性突破。其中,甲状腺结节作为一种常见的外科临床疾病,利用深度学习对超声影像中的甲状腺结节进行快速准确地良恶性诊断与病灶定位,在临床医学领域具有良好的应用前景。然而,由于超声影像中的人工标记以及超声仪器的型号、设置往往不同,不同医院的超声影像往往具有不同的数据分布并被称为多中心数据。为了确保人工智能诊断模型对多中心数据进行精确诊断,人工智能诊断模型的
学位
周围神经损伤反应及影响再生的表观遗传学机制尚未被阐明。本文着眼于表观遗传学调控机制,从DNA甲基化、组蛋白修饰、非编码RNA等方面对周围神经损伤后再生的表观遗传学调控机制进行综述,为优化周围神经损伤后再生的临床治疗提供基础知识。
期刊
内蒙古草原是我国重要的生态保护屏障,部分区域是农牧交错带的重要组成部分。锡林郭勒草原位于内蒙古东中部,属典型温性草原,深入开展退耕还草对其植被总初级生产力(GPP)的影响、探究相关环境因子,对深入了解退耕还草过程中区域植被生长状况变化和生物固碳潜力时空分布以及制定更加科学精准的退耕政策具有重要意义。基于遥感、气象观测和土地利用数据,采用残差分析和相关性分析方法,系统研究了2010—2015年间锡林
期刊
<正>一、引言绿地连接各类城市公园、湿地公园、森林公园、风景名胜区、自然保护区等,是城市重要的基础设施[1],也是城市宜居品质的重要表现。绿地空间是生态优先战略的重要议题之一,是维系城市生态安全和提升居民福祉的重要空间,是构建国土空间规划“一优三高”的关键环节[2],在规划和设计策略上对生态空间结构与格局的合理建构具有明显的指向性,城市人居环境与生态安全受到影响[3]。
期刊
叠层橡胶隔震支座抗拉性能远小于抗压性能这一客观情况制约了叠层橡胶隔震支座在大高宽比建筑的推广应用。在研究叠层橡胶隔震支座力学性能的基础上,提出一种新型抗拉机构,利用叠层橡胶隔震支座的抗压能力来承受隔震层的拉力。通过对一栋高层隔震结构在罕遇地震中的地震响应分析,研究新型抗拉机构对大高宽比隔震结构的影响。研究表明新型抗拉机构巧妙地把拉力转化成压力,构造简单,易于设计和制造,采用新型抗拉机构,可以提高隔
期刊
内蒙古地区是我国草原生态系统比较重要的区域,植被净初级生产力(NPP)是生态系统碳源、碳汇的主要参数,研究NPP变化及其影响因子,对生态系统固碳能力的监测和预测有重要意义。本研究基于2000-2019年逐年MOD17A3–NPP产品数据以及降水、气温、相对湿度、光照时长、地表蒸散、高程、NDVI值等因子数据,研究内蒙古草原自然资源大区NPP的时空变化及其影响因子。通过Theil-Sen Media
期刊
手绘建筑图是一种表达建筑设计师灵感和想法的强有力的工具,动画是一种表达三维物体空间感的强有力方式,目前的研究主要集中在风格化图像的生成,而对风格化动画的生成的研究相对较少,这主要是由于动画需要考虑时空的连续性,不仅需要考虑生成结果的质量,还需要考虑生成动画时空上的连续性。本文提出了一种新的基于生成对抗式网络的手绘建筑动画生成方法,即AL-GAN网络。AL-GAN网络由一种可以对已有彩色图像进行细致
学位