基于多维标注信息的代码搜索技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:maxfree99999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件工程在50多年的发展过程中,积累了大量高质量的代码,这些代码广泛分布于网络、个人电脑和代码仓库中。随着软件开发向智能化、自动化方向发展,这些海量的代码必将发挥巨大的重复利用价值。重用现有代码可以降低开发难度和提高开发效率,因此从海量的代码中搜索到开发者期望的代码片段来满足新的需求显得十分迫切。研究人员提出多种代码搜索技术,帮助开发人员从大量静态代码中搜索到期望的代码片段。现有的搜索技术存在一些不足,如缺乏多角度对代码片段的描述导致标注信息不准确、代码标注与搜索语句映射不合理导致搜索算法不准确等问题,影响了代码搜索结果的有效性。为了解决上述问题,本文提出一种基于多维标注信息的代码搜索技术(Multidimensional Labelling Based Code Search,简称MLCS),从代码文本信息、代码元素角色和程序结构中提取多维度的标注信息,并且结合了自然语言特征和编程语言特征,从多个角度实现对搜索语句的精准匹配,帮助开发者搜索到期望的代码片段。本文主要通过改进传统的代码标注和搜索算法来提高代码搜索结果的精度,首先以源代码为数据源提取文本信息、代码元素角色和程序结构信息,然后经过去噪和融合操作获取多维度的标注信息,利用同义词重构搜索语句增强对搜索意图的理解能力,进而提高搜索技术的有效性。为验证代码搜索技术的有效性,本文从Github中选取10个流行的开源项目作为实验对象,这些开源项目涉及数据存储、开发框架、IO操作等多个领域,代码总行数约为2900万行。评估实验以准确率作为度量指标,对比了MLCS和基于WordNet的代码搜索在相同数据集上的搜索效果,并比较了两种技术的搜索执行时间。实验数据表明,在Top-10的结果上,MLCS和基于WordNet的代码搜索相比准确率提高了30%,平均排序倒数提高22%。同时,在执行时间上MLCS与基于WordNet的代码搜索相似地保持线性增长趋势。本文提出的代码搜索技术在多维标注信息的基础上达到了较高的搜索精度,能够帮助开发者搜索到期望的代码片段。
其他文献
目的:比较根治性远端胃切除胃-空肠侧侧吻合和端侧吻合在远端胃癌治疗中的近期临床疗效。方法:回顾性分析东南大学附属中大医院普外科2013年1月~2019年12月同期施行开放根治性远端胃切除术患者的临床资料,依据胃-空肠吻合方式分为端侧组和侧侧组。比较两组患者的一般情况、手术时长、术中出血量、肛门排气时间、术后并发症及住院时间、总费用等情况的差异。结果:本研究共纳入175例病例均顺利完成了根治性远端胃
目的:分析血清甲胎蛋白(AFP)水平与早中期肝细胞癌(HCC)临床病理特征及预后的关系,为早中期HCC预后判断和治疗提供线索与指导。方法:从2013年8月至2019年12月东南大学附属中大医院收治的1600例原发性肝癌患者中,通过严格的纳入及排除标准筛选出137例早中期HCC患者,根据患者治疗前血清AFP水平,将其分为以下三组:AFP阴性组(AFP≤20ng/m L)58例;AFP阳性组(20ng
研究背景:血管源性脑白质高信号(white matter hyperintensity,WMH)是脑小血管病(cerebral small vessel disease,CSVD)的常见影像学特征,是头颅磁共振上最常见的与年龄相关的病变;脑的小血管或微血管慢性缺血导致的脱髓鞘甚至是轴突损伤是其主要的病理机制。WMH与认知障碍(cognitive impairment,CI)密切相关,是老年人群认知
研究目的:探讨不同程度的麻醉诱导期低血压对老年患者全麻术中脑组织氧饱和度的影响及其可能的原因。研究内容:选取2019年8月-2019年12月,于东南大学附属中大医院接受择期全麻骨科下肢手术的老年患者,按照纳入、排除标准进行筛选后,总计纳入符合条件的患者63例,根据麻醉诱导后平均动脉压(MAP)下降的程度进行分组,MAP下降小于入室血压值20%为A组(麻醉诱导后无低血压组),将MAP下降大于等于入室
背景和目的:1、近年来老年克罗恩病患者越来越多,本文通过比较老年与青壮年CD患者的异同,分析了解老年CD的临床特点;2、探讨老年CD患者预后不良的影响因素,甄别高危患者,为其早期强化治疗提供指导。方法:1、回顾性收集2016年6月~2019年6月在东南大学附属中大医院及东部战区总医院初诊并有随访记录的CD患者的病历资料,通过纳入和排除标准筛选入组病例;2、将纳入的病例根据诊断年龄分为老年组(≥60
背景:随着需要手术治疗的老年患者比例的增长速度超过了社会人口老龄化的速度,虚弱评估由社区人群逐渐应用于手术患者中,虚弱概念逐渐被临床医师熟知。临床研究结果支持其与患者的预后密切相关,且出现了评估虚弱严重程度的数种不同方法(如Fried表型,mFI及EFT等),但至今尚无统一运用于临床的、可准确评估患者预后的金标准。目的:本研究为一项前瞻性队列研究,拟探究术前虚弱状态与全麻下行择期非心脏手术的老年患
目的分析子痫前期相关高危因素、临床特点及母儿结局;检测子痫前期患者胎盘组织细胞焦亡相关分子NLRP3、caspase-1的表达并探索其发病机制,用于指导临床实践。方法1、采用病例对照研究的方法,收集2016年01月至2019年11月在东南大学附属中大医院妇产科住院分娩单胎孕妇360例临床资料及母婴结局,其中子痫前期组180例,正常孕妇组180例。将子痫前期组按疾病严重程度分为子痫前期及重度子痫前期
研究目的:对放射治疗联合免疫检查点抑制剂治疗恶性黑色素瘤脑转移患者的有效性和安全性进行系统性评价。研究方法:通过计算机收集、整理各数据库关于放射治疗联合免疫检查点抑制剂(Immune checkpoint inhibitors,ICIs)治疗恶性黑色素瘤脑转移患者的研究,数据库包括中国知网、万方数字化期刊全文数据库、Embase、Pub Med、Cochrane、Google Scholar、We
背景与目的:早期胃癌内镜切除术后病理结果与术前内镜活检病理结果之间常常存在一定的差异,且普通内镜下病灶黏膜的颜色和形态变化有时也难以鉴别早期胃癌及其分化程度。因此,本研究的目的是探讨术前白光内镜和蓝激光成像内镜特征在早期胃癌和胃上皮内瘤变中的诊断价值,以及在分化型早期胃癌和未分型早期胃癌中的诊断价值。方法:本研究回顾性收集了2015年5月至2019年6月经内镜检查怀疑早期胃癌并取得活检病理结果的患
脑机接口(Brain-computer Interface,BCI)技术为严重运动神经元损伤患者提供了一种不依赖于正常外周神经或肌肉通路的通信途径。其中,基于稳态视觉诱发电位(Steadystate Visual Evoked Potential,SSVEP)的脑机接口系统具有高准确率、高信息传输速率以及高信噪比的特点,因此具有很高的研究与应用价值。然而,现有SSVEP型BCI相关研究仍旧存在一些