基于多重图嵌入的代码搜索研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:killlikk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码搜索是开发者利用自然语言查询语句搜索符合其描述的代码片段的行为,是现代软件开发过程中最频繁的活动之一,开发者通过搜索寻找可复用的高质量代码。因此,提高代码搜索的准确度可以有效提高软件的质量和开发的效率。开发者需要根据语句及其上下文理解代码,这使得开发者倾向于搜索实现一定功能的函数或代码片段。因此,代码搜索系统使用的函数表示应该表达函数的功能。据此,本文分析了现有方法存在的两个问题:函数功能表达问题、多模态特征融合问题。现有方法使用函数源代码、抽象语法树、程序依赖图表示函数,但这些表示方式难以表示函数的功能。同时,现有方法使用向量拼接、向量相加等中间融合的策略融合多模态特征,使得多模态特征缺乏细粒度的交互,降低了代码搜索的准确度。为了解决上述问题,本文提出基于多重图嵌入的代码搜索方法,该方法在函数源代码层面实现代码搜索。本文的主要贡献如下:第一,针对函数功能表达问题,本文认为语句及其所处的顺序、分支、循环结构和数据依赖关系影响了语句和函数功能的表达,而控制流图表达了语句的顺序、分支和循环结构,数据依赖图表达了数据依赖关系。因此,本文使用控制流图和数据依赖图表示函数的功能。第二,针对多模态特征融合问题,本文使用早期融合的策略融合多模态特征,将控制流图和数据依赖图合并为一张有向多重图。该图在函数的表示层面融合了语句、控制流图、数据依赖图三种模态的特征,使得多模态特征可以实现细粒度的特征交互。基于函数的有向多重图表示,本文使用关系图卷积网络提取图的特征。第三,对比典型的基于文本特征和结构特征的方法,本文方法的准确度更高,表明多重图表示的上下文信息可以有效提高代码搜索的准确度,有助于提取代码的功能语义。同时,消融实验也表明控制流图和数据依赖图可以提升代码搜索的准确度,控制流图的贡献比数据依赖图大。最后,本文还对比了不同特征融合策略对搜索准确度的影响。实验表明,本文的早期融合策略可以提高搜索的准确度。但由于结构特征对搜索准确度的贡献比文本特征低,而不同的多模态特征融合策略仅影响到结构特征的融合,因此采用不同的特征融合策略对搜索准确度影响较小,搜索准确度的提升主要来源于控制流图和数据依赖图表达的上下文信息。
其他文献
随着时代的发展和人类社会的进步,各种便携,可穿戴,可监测的柔性传感器纷纷涌入人们的视野之中,已成为生活中不可或缺的一部分,传感器的制备和改善成为科学家们研究的热点。传统的以碳基材料,导电聚合物或者金属材料为导电基质构建的水凝胶传感器通常面临着一些问题,比如,碳基材料固有的疏水性和较差的溶解性,导电聚合物的较强的刚性和差稳定性,金属材料的工作电压较高且价格昂贵,这些导电材料的缺点限制了其在传感器领域
学位
近年来,随着人工智能和自然语言处理技术的发展,机器阅读理解技术受到广泛的关注。这项技术赋予了计算机理解文章的能力,从而辅助用户快速得到问题答案。然而,现实中的文本含有大量的数值词符,该类数值文本难以被直接建模。与非数值词符相比,数值词符还包含数值离散信息,例如数值之间包含大小等偏序关系、数值之间可以进行四则运算等。如何对数值离散信息进行建模还未被深入研究。本文在机器阅读理解原有的研究成果上,针对数
学位
电控荧光是指通过电化学刺激,使材料发生氧化还原反应,进而对材料的荧光性质如开关、颜色等进行可逆的调控的一种行为。电控荧光材料具有颜色变化鲜艳、安全可控、能耗低等一系列优点,在显示、传感、防伪等领域具有广阔的应用前景。然而,目前设计报道的电控荧光材料大多存在荧光对比度低、驱动电压高、转变速度慢、稳定性差等不足,限制了其进一步发展。因此,探索合成具有良好电控荧光性能的新型材料具有重要意义。三苯胺结构具
学位
随着科学技术的发展,纳米材料已被广泛应用于催化、传感、医疗等众多领域。由于其特殊尺寸,它具有不同于常规大尺寸材料的特殊性能。例如,表面效应、小尺寸效应、量子尺寸、宏观量子隧穿效应等,赋予其独特的光学、磁性、电化学性能。基于其优异的光学成像性质,良好的生物相容性,小尺寸容易被细胞内吞的特点,纳米材料在疾病成像与治疗方面的应用受到越来越广泛的关注。通过对纳米粒子表面功能化与疾病特异性靶点结合,实现疾病
学位
近年来,随着社会进入大数据时代,文本摘要生成任务愈发受到研究人员的关注,其目标是针对篇幅较长的文本生成能够简洁准确反应原意的短文本摘要。当前的文本摘要生成方法分为两类:抽取式摘要生成方法和生成式摘要生成方法。前者为从原文本中抽取部分片段,组合构成摘要。后者为直接根据原文生成摘要,可出现原文中未有的词汇。本文研究针对的是文本匹配范式的抽取式摘要生成方法。现有的相关方法使用预训练语言模型分别抽取文档、
学位
近年来,在人工智能、虚拟现实等新技术浪潮下,虚拟数字人技术正在得到越来越多的关注。其中,人脸动作重定向是虚拟数字人技术的重要组成部分,目标是从普通RGB人脸图像中捕捉人脸的动作(人脸表情与头部旋转姿势),并重定向到其他定制化的3D角色人脸上。该任务通常被建模为三维人脸重建问题,通过估计3DMM人脸模型的身份、表情、头部旋转系数等进行三维人脸重建,然后将最终估计的表情系数和头部旋转系数重定向到目标3
学位
近年来,有机金属卤化物钙钛矿纳米阵列结构因其在偏振光、高分辨X射线成像、发光二极管和激光器中的潜在应用而备受关注。诚然,干法和湿法蚀刻以及气相沉积等工艺可以制备出有序的图案化纳米结构,但这些方法往往需要复杂的制备步骤以及高真空等苛刻的制备条件,这些都大大增加了其大规模应用的成本。相比之下,通过化学溶液法制备纳米阵列结构具有成本低、步骤简单、制备快速等优点。然而,由于对有关成核机理以及生长动力学的研
学位
随着软件规模和复杂度的不断提升,软件测试已经成为软件生命周期中最重要的阶段之一。跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)方法允许在一个软件项目的初期阶段利用其他成熟软件的标记数据来进行缺陷预测,使得研究人员可以将通过成熟项目的标记数据训练出来的缺陷预测模型应用于其他新项目的预测任务。目前,大部分CPDP模型利用深度学习方法提取源代码中的语义特征信息
学位
为开发高扩散渗析性能的阴离子交换膜,本论文通过合理的分子设计来改性聚(联苯哌啶),使改性膜具有更优异的尺寸稳定性,酸通量以及离子选择性。1.通过联苯,N-甲基-4-哌啶酮,α,α,α-三氟丙酮进行共聚,制备了三种不同哌啶含量的聚合物PBPip XAc。随后经Menshutkin反应将长侧链季铵化试剂6-Br-MPD接枝到聚合物中,从而得到了一种侧链局部高密度形式的聚芳基哌啶阴离子交换膜QPBPip
学位
近年来,D-A(给体-受体)型共轭聚合物在聚合物太阳能电池(PSCs)领域具有广泛应用。聚合物太阳能电池可通过光生伏特效应将太阳能转化为电能,是一种理想的绿色能源转化装置。PSCs还具有易加工、材料来源广泛、质轻、柔性等特点,PSC的设计和开发为解决能源短缺、环境污染和温室效应提供了有效途径。此外,人们已经认识到,使用有毒溶剂造成的环境污染问题,会阻碍聚合物太阳能电池的商业化生产。由于D-A型共轭
学位