基于扩展查询和自然语言处理的代码检索技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:orangeboy2222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的代码检索研究以神经网络模型与社区问答数据相结合、对用户查询和代码片段联合建模为主,但是针对神经网络模型与代码仓库中的Pull Request(PR)信息结合进行研究的工作较少。代码特征抽取技术通常将神经网络模型与社区问答数据和开源代码数据预处理相结合,对用户查询和代码片段联合建模,但是模型高度依赖于精标注数据集,使用大规模粗标注数据集训练得到效果一般。基于上述问题,本文提出了一种基于扩展查询和自然语言处理的代码检索技术,结合Porter词干提取算法对PR信息进行处理并词干化表示,使用CBOW模型学习文本,用词向量的方式表示PR描述信息和Diff代码的语义信息,使得语义上相似的PR信息余弦距离相近,从而扩展语义相似的自然语言查询,提高自然语言检索代码示例的精度。然后提出一种BERT预训练模型,对程序语言与自然语言进行联合建模,通过遮蔽语言建模、替换令牌检测以及微调,学习PR信息中的的语法和语义等复杂特性,减少对精标注数据集的依赖。接着选取Git Hub中5个PR审核通过数量较高的开源项目作为实验对象,通过计算平均精确率、平均倒数排名和回答三个代码检索研究相关问题来评估我们的方法。结果表明,前10文档的平均精确率能够达到58.17%,平均倒数排名能够达到61.11%,即检索结果的第一页中平均有6个与查询相关的代码示例,并且第一个正确的检索结果通常出现在第一或第二个位置上,所以将神经网络模型与代码仓库中的PR信息结合能够一定程度上提升代码检索的精确度。最后,为了从实践角度上验证两个代码检索方法的有效性,基于上述研究成果,本文在代码检索研究框架的基础上开发了具有一定可用性的代码检索系统。
其他文献
歌剧是集音乐、舞蹈、戏剧、文学、舞台艺术于一体的综合性艺术形式,产生于16世纪末的意大利。经过我国几代老艺术家不断地辛勤探索,在吸收外来艺术形式的同时与我国传统文化相结合,创造出具有中国民族特色的中国歌剧,《悲怆的黎明》作为新时代的一部大型歌剧,该剧的成功同时也激励了我国民族歌剧的艺术创作。《悲怆的黎明》描述了东北某公学一群热血青年为了新中国成立在战火中浴血奋战的悲壮历程,歌剧中的革命先辈们成就大
随着时代的发展,生产力的提高,有许多人从繁琐的工作中解脱出来,这一切则归功于工业机器人的发展。同时工业机器人技术也随之大幅度提升,人机交互技术也得到了快速的发展,其应用范围也更加的广泛,人机交互的方式也更加符合人与人之间的交互方式,如人脸识别、可对话的智能音箱等。这些交互方式大大减少了人体操作机器相关指令的操作,使人体能够更加自然的与机器进行交互,大大提升了人类使用机器时的舒适性。人机交互技术在可
近年来,得益于4G技术的普及、5G通讯技术日趋成熟以及移动智能设备的完善,视频数据与日俱增。如何从海量视频数据库中快速检索到用户感兴趣的视频已经成为信息化时代的一个有意义的课题。传统的基于文本关键字的视频检索方法难以满足用户日益增长的需求,因此,基于内容的视频检索方法应运而生。本文对基于内容的视频检索的关键技术进行了深入研究,主要包括关键帧提取、特征提取与表示。在关键帧提取方面,现有的算法存在以下
软件定义网络是一种新兴的网络技术,它能够消除传统分布式网络架构的弊端。然而,在这种新兴的架构中,网络安全问题进一步增多,流表溢出攻击是其中一个非常严重的问题。由于这种攻击与传统的分布式拒绝服务攻击有着不同的特征,目前主流的检测系统对这种攻击没有很好的监测效果。本文在分析了现有的流表溢出攻击缓解方案的基础上,研究在检测精度、响应速度和资源消耗量等方面表现更好的方法。主要工作如下:首先,提出了一种基于
近年来,我国正在积极建设综合高效的智能运输基础设施。隧道作为重要的交通设施之一,在其长期使用期间,隧道衬砌会不可避免地出现各结构病害,会危害到隧道的安全运营。因此隧道衬砌结构病害高效的识别与分类,有利于保证隧道运营安全,有一定的工程应用价值和显著的社会经济效益。探地雷达(Ground-penetrating Radar,GPR)是目前广泛使用的隧道衬砌结构病害检测工具。但目前对于GPR数据的解释主
近来,全球经济快速增长,能源的消耗日益上升。建筑物的传统温控方案,造成了一定的能源浪费,并且存在忽略人体冷热感受的情形(例如在空调开启的情况下感到很冷或者很热)。构建实时的非接触式人体热舒适检测则能够有效缓解以上的情况,实现“以人为本”智能建筑。而目前的非接触式热舒适检测主要使用红外等设备,由于其价格昂贵,安装不便等原因,其并不能很好的应用于智能建筑的热舒适环境。同时,现有的一些使用图像捕捉等设备
聚类(Clustering)是一种用于探索数据结构的数据分析技术,它能够根据数据特征进行分类,将具有相同或相似性质的数据划入同一个子组(簇),不在同一簇中的数据通常其性质是不同的。聚类分析是基于特征的基础上找到样本的子组,或是在基于样本的情况下找到特征的子组。在聚类分析中引入差分隐私技术是当前研究领域绕不开的热点。差分隐私是一种数据失真技术,能够抵御任何背景知识下的攻击,且不受数据集大小的限制。在
目前大数据和人工智能与我们的日常生活的联系日益密切,商标必须经过有关部门审批通过才能得到法律的保护,随着经济的发展,商标注册数量剧增,在申请和审批时,为了避免申请的商标和已有商标相似,需对已有商标进行检索,但传统手工检索商标速度慢,存在漏检等弊端,所以本文对商标自动检索系统进行了研究。本文设计了一个自动商标检索系统,该系统由图像预处理模块、BOF模型制作模块和分类器模块构成。商标检索涉及的商标原始
随着移动智能设备技术的推广,人们对于位置服务(Location Based Services,LBS)的需求变得越来越普遍,与此同时,人们对位置服务的准确性有了更高的要求。虽然传统的定位系统可以很好的应用于空旷、遮挡情况不严重的室外环境,但在遮挡严重且定位精度需求更高的室内环境中表现不佳。由于室内工作与生活的需要,在不久的将来,室内位置服务需求必然会是一个巨大的流量入口。在室内环境中,GPS信号难
在当今社会,网络已经成为人们获取信息的主要来源。海量的数据信息使得人们很难能够快速获取满足自己需求的信息,而推荐系统能够帮助人们实现这一目标。协同过滤推荐算法是推荐算法中被应用最成熟、最广泛的算法,但其数据稀疏性问题往往制约着推荐质量。本文针对数据稀疏环境下的协同过滤推荐算法进行研究,从不同的角度提出了相应的改进算法,用来提高推荐的精确度。本文首先从用户之间相似度计算的准确性角度进行研究,提出了一