软件工程领域语义相关词的挖掘与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:a479704375
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码搜索是软件开发及维护过程中的一项常见任务,开发者经常需要进行代码搜索来帮助完成代码学习和重用、代码重构、bug定位等工作。现有的代码搜索工具大部分是基于关键字文本匹配的搜索方法,与传统信息检索类似,这种方法的一个关键问题在于用户查询关键字与代码文本用词不匹配。因此需要对用户查询做语义相关词扩展以提高搜索精度。由于软件工程领域的单词语义与自然语言存在很大差异,代码搜索无法使用自然语言的语义相关词做查询扩展,需要软件工程领域的语义相关词表。目前已有的软件工程领域语义相关词挖掘研究大多采用简单的文本相似度检测方法或基于词汇同现的统计方法,具有较大的局限性。而现有的自然语言领域的Word Embedding方法在语义相关词挖掘任务上表现良好。基于此,本文设计了一种基于Word Embedding的软件工程领域语义相关词挖掘方法SWordMap,并就SWordMap在代码搜索上的应用进行了研究。SWordMap采用CBOW神经网络语言模型,以IT技术问答网站Stack Overflow的文档作为训练数据,训练得到19332个软件工程领域单词的向量表示及语义相关词表。为研究所得语义相关词表在代码搜索上的应用,根据本地代码搜索及开源代码搜索的不同特点,本文分别设计了针对本地代码搜索及开源代码搜索的查询扩展模型,并基于搜索引擎Elasticsearch进行了实现。本文实验从四个不同角度对SWordMap进行评估:SWordMap挖掘语义相关词表的精确度;SWordMap对关注定位任务效率的提升;SWordMap对本地代码搜索精度的提升;SWordMap对开源代码搜索精度的提升。实验结果表明,SWordMap能够有效挖掘软件工程领域语义相关词,能有效提升关注定位任务效率及本地代码搜索精度,对开源代码搜索精度的提升有限。与前人工作的对比实验表明SWordMap能挖掘更高精确度的语义相关词,给关注定位任务及本地代码搜索带来可观的帮助。
其他文献
异常是一种用于处理软件或信息系统中出现的特殊状况的程序语言机制。现代程序语言,如Java、C#等,大多都具有完善的异常处理流程与规范。开发人员用于处理这些异常与错误的常用方式是利用Google与Bing等通用搜索引擎进行检索,找到建议的解决方案。然而,通用搜索引擎由于检索语句长度以及匹配算法的限制,并不能很好的理解与处理异常信息的查询,结果往往并不理想。针对软件异常缺陷处理方案的智能推荐相对于传统
Successful coordination of supply and demand is crucial for the competitiveness of a company,and companies need to stay up to date in terms of the information technology they deploy within their suppl
学位
采用大气等离子喷涂技术(APS)在C/C复合材料表面制备了mullite/ZrB2-MoSi2双层抗烧蚀涂层。借助XRD、SEM、EDS等分析手段对涂层的组织结构进行研究;基于氧丙烯焰烧蚀试验考察ZrB2-MoSi2/mullite复合涂层对C/C复合材料高温耐烧蚀性能的影响。结果表明,在1700和1800℃的氧丙烯焰下烧蚀60s,ZrB2-MoSi2/mullite涂层试样的质量烧蚀率分别为3.
本文设计的二氧化碳培养箱智能监控系统是一个以多种传感器为检测手段,结合了数据处理,参数显示,用户设置的多功能系统。它可与上位机通讯,也可自身存储实验数据,通过自身的动态调节保持相对静态的平衡。传统的二氧化碳培养箱的温度控制精度一般在±1℃,而且显示温度一般和检测温度并没有同步,出现延时滞后,就容易出现温度控制不稳定的情况。如果需要显示精度要达到0.1℃,显然这样的传统的控制方法是不够的。另外传统的
随着网络在我们的工作和生活中变得愈加重要,人们越来越多地依靠网络文本来沟通、交流、学习并记录信息。比如,我们通过“自然”语言来进行交流,但非结构化的语言与结构化的列表或其他数据形式相比,难以被机器自动化处理。与此同时,这种书面文字在网上无处不在,并且包含着对于个人和商业机构极为重要的信息。人工智能领域已经为处理大量非结构化信息的难题提供了一些解决方案。具体来说,自然语言处理(NLP)的一个分支就着
运动承诺反映了个体维持运动的动机,当前大学生运动员群体受到学业、训练和就业等多重压力的影响,面临潜在的“运动承诺危机”。基于篮球运动的普及性与特殊性,大学生篮球运动员面临的潜在压力更为巨大。为了帮助大学生运动员提升自身的运动承诺水平,本研究拟探讨队友亲反社会行为在团队信任和运动承诺关系中的中介作用。本研究采用团队信任量表、运动亲反社会行为量表和运动承诺量表,调查了570名参加CUBA东南赛区和东北
地下煤矿开采巷道的远距离场景再现技术对于实现煤矿开采工作的无人化有巨大意义。但现有的场景再现技术仅通过对掘进完成后的巷道进行各种测量获得数据以完成场景的建模与再现,无法推进掘进过程中的无人化。因此,本文设计制作了一套基于双目视觉的地下巷道可视化重建系统,通过双目摄像头获取场景图片,从中提取场景三维散点坐标,对地下巷道进行数学建模,实现对巷道掘进场景的三维可视化重建。首先,本文介绍了双目视觉的基础理
近年来,随着突发事件频繁发生,如何妥善的对突发事件进行应对与处置也越来越受到政府等各种组织的重视。由于突发事件可能会带来严重危害,因此需要在短时间内快速组织、调度大量资源,通过各资源的协同配合,来保障人身财产安全,杜绝事态进一步恶化。应急任务的资源规划是针对突发事件下紧急资源调度的需求,通过对任务进行分解,实现资源的快速规划、查找与匹配,并对资源冲突进行消解,完成资源保障计划的生成。针对上述目标,
目的:为了解上海市大学生体力活动与睡眠质量的关系,探讨BMI在上述关系中的作用;方法:本研究采用国际体力活动问卷简版(IPAQ–Short)和匹兹堡睡眠质量指数问卷(Pittsburgh sleep quality index,PSQI)对上海市1500名大学生进行了测查。研究结果显示:(1)在体力活动水平(t=-2.066,p<0.05)和BMI值上(t=3.183,p<0.05)上存在性别差异
背景:最大摄氧量和肌肉力量都是衡量人体生命体征的重要指标。当前研究中,摄氧量与肌肉力量之间的关系存在一定的争议。肌肉力量对摄氧量的影响需要进一步探究。目的:通过测试18至45岁之间成年男性与女性的最大摄氧量、不同跑步速度下的摄氧量和肌肉力量,确定摄氧量与肌肉力量之间的关系。为运动训练的开展和运动处方的制定提供科学有效的数据支持。方法:本研究为横断面研究。总计纳入170名健康受试者,最终符合标准的1