【摘 要】
:
近年来,随着开源生态的迅速发展,积累了大量的开源软件资源。在这些数目庞大的软件资源中,不乏质量很高的代码片段,以及其衍生品,如代码摘要、文档等。这些高质量的资源具有丰富的价值。然而在海量的开源资源中,如何挖掘出这些高质量的开源资源,使其能够复用于未来的软件工程之中,仍然面临着许多挑战。本文认为面对大数据背景下的开源资源,需要从两个方面进行着手:理解代码与定位代码。因此,本文提出了进行了如下研究:1
论文部分内容阅读
近年来,随着开源生态的迅速发展,积累了大量的开源软件资源。在这些数目庞大的软件资源中,不乏质量很高的代码片段,以及其衍生品,如代码摘要、文档等。这些高质量的资源具有丰富的价值。然而在海量的开源资源中,如何挖掘出这些高质量的开源资源,使其能够复用于未来的软件工程之中,仍然面临着许多挑战。本文认为面对大数据背景下的开源资源,需要从两个方面进行着手:理解代码与定位代码。因此,本文提出了进行了如下研究:1、基于抽象语法树的静态调用关系提取。一段代码的详细功能实现,与它和其它代码段之间的调用关系是密不可分的。而一个项目内的调用关系对于了解该项目的整体功能十分重要。因此,本文利用静态扫描的方法,在抽象语法树的基础上,设计了自动提取代码多层级调用关系的工具。同时,本文也对不同项目之间调用关系进行了统计分析,对Java项目中调用关系的特点进行了归纳总结。以此为基础,阐述了本文的调用关系序列如何助力于代码的理解。2、基于调用关系的代码摘要生成。大数据背景下的代码摘要生成技术,引入了机器学习和自然语言翻译的方法。该领域的最新研究,致力于通过解析代码的结构、语义特点,优化改进机器学习的翻译模型,以使其更契合于代码到摘要之间的转换。然而这些研究工作,仅考虑一段代码之内的特性,忽略了代码的调用关系。本文使用自身开发的调用关系提取工具,首次将代码的调用关系融入代码摘要生成方法之中。本文在大规模数据上进行了实验。在与目前代码摘要生成的最新研究成果的比较中,本文的方法使得代码摘要的生成效果获得了一定的提升。3、基于代码标签的代码检索技术。目前的代码检索领域中,基于机器学习技术的代码语义检索引擎获得了较大的成功。本文借鉴代码摘要生成模型的思路,以代码语义检索为目标,设计了代码标签生成模型。实验表明,代码的标签作为代码语义的关键词,具有较高的生成准确率。以代码标签为中介的检索引擎与现今前沿的代码语义检索引擎进行了对比,结果显示本文的方法具有较高的检索准确率。综上所述,基于抽象语法树的静态调用关系提取工具和利用该工具提取的信息进行研究的基于调用关系的代码摘要生成模型,能够助力于开发者对代码的理解。同时基于代码标签的代码检索技术有助于解决代码的定位问题。
其他文献
随着信息和通信技术的不断发展,无论在军事还是民用领域,物联网技术都得到了长足应用。由于接入网络的终端数量的大幅增长,特别是物联网海量连接的特性,导致由物联网引发的安全问题愈加严重,给国家和军队网络空间安全带来极大挑战。因此,展开物联网对抗方面的研究具有重要的军事理论意义和价值。论文聚焦物联网网络空间安全问题,针对物联网对抗领域物联网终端识别与定位技术这一重要的方向展开研究。首先介绍了课题的研究背景
随着对地观测数据更新周期越来越短,地理信息服务中对地图影像更新的要求也更加频繁。对影像数据进行局部或全局更新时通常会形成多个时间版本的影像,因而,有必要针对时间多版本影像数据,实现高效的存储和组织管理方法。通过对时间多版本影像数据特点进行研究,提出了有效的影像瓦片存储方法和时空索引优化方法,能够有效提高影像瓦片数据的存储、读取和影像数据查询响应速度,进一步提高了地理信息服务的质量,本文的主要工作和
对于大脑皮层结构和功能的特征研究一直是脑科学领域的热点研究问题。得益于磁共振成像技术的出现,为结构和功能脑影像的特征提取提供了可能性。本文中,首先基于磁共振结构像重构获取脑皮层点云图谱,提出一种新的大脑皮层点云特征提取算法,考察男女大脑结构上存在的差异性以及正常人和精神分裂症人员皮层结构上的差异。其次,基于磁共振功能图像,通过计算偏侧化指标这个特征,进一步考察精神分裂症人员中幻听和非幻听人员特有的
当代民族文学特别是20世纪80年代中期以来的民族文学中普遍表现出民族认同的现象,这牵涉到民族文学的各种文体如小说、诗歌、散文等,其中尤以少数民族小说体现最为显著,从长篇小说《心灵史》《尘埃落定》等到大量的中短篇小说莫不如此。这种民族文学中的民族认同现象不仅数量众多,而且形态多样;不仅有外显的表征,也有内隐的征候;所涉及到的不仅有一流的名家名作,也有一般的作家作品。
随着视频监控头的海量增长,智能视频监控系统在社会上有着越来越多的迫切需求,尤其是在智能安防、智能交通管理、智能医疗等领域。其中,视频异常检测是智能视频监控系统的核心技术。在有监督的条件下,视频异常检测会消耗大量的人工成本、物资、时间等进行数据的标注;而无监督的异常检测可以很好地克服这些不足,但宥于没有先验知识作为依照,目前开展的研究相对较少。本文着眼于无监督视频异常检测技术和应用,主要开展了以下两
程序自动修复技术为软件调试、软件维护等任务带来了极大的便利,因而引起了研究人员的广泛关注,越来越多的方法被提出以更好地解决修复问题。然而,这些技术在测评环节中存在着多种偏差,使得研究人员不能够全面地客观地分析当前技术的修复能力。本文针对当前的修复工具测评环节中的三类偏差进行研究,内容涵盖程序修复流水线上三个环节(缺陷定位,补丁生成,与补丁验证)中的两个(缺陷定位与补丁验证)以及缺陷数据集的选取,旨
近几年来,深度卷积神经网络(Deep Convolution Neural Network,DCNN)在语义分割任务上取得了显著的进展,极大地提高了语义分割的准确性以及处理效率。在自动驾驶视觉传感器采集的图像中,语义分割方法通过像素级的标注及时精准地获取道路空间方位和障碍物轮廓等信息,已经成为驾驶视觉场景下实现自主规划和主动避障的主流解决方法。对于这类对实时性要求高的应用,如何在保持高效的推理速度
作为现代图像系统的重要部分——多光谱与高光谱图像为探测地物目标提供了丰富的空间信息与光谱信息,在民用与军事领域均有很深的应用价值。与其相关的图像处理技术包括图像搜索、增强、融合、语义分割、异常检测与图像分类等。本文针对多光谱图像融合技术与高光谱图像分类技术进行了深入研究,主要工作包括:(1)本文提出了一个由RLNSST算法与引导滤波器结合的新型融合算法。在深入理解图像融合技术基本理论的基础上,本文
作为一项典型的计算机视觉任务,人群计数的目标是精准高效地统计视频或图片等载体中所含有的总人数。目前,人群计数任务已在公共安全领域的诸多方面得到大力推广和积极应用,越来越多的学者开始将其作为研究课题进行专项讨论。基于采取的方法或者手段,可将人群计数大体划分为两种:一种是基于回归的人群计数,它主要通过创建的回归模型进行人数统计;另一种则是基于检测的人群计数,它依托成熟的目标检测技术对特定场合中包含的人
随着倾斜摄影测量技术、无人机技术和三维重建技术的快速发展,大范围场景下倾斜摄影测量数据的生产速度有了大幅提升。处于信息化时代的人们,也越来越希望能够通过多种多样的科学技术手段了解自己所处的环境,二维影像所提供的信息已经远远不能满足人们的需求,面向三维可视化的需求越来越多。虽然面向三维web可视化的研究有了诸多进展,但是大范围场景下倾斜摄影测量数据的可视化仍存在诸多问题。例如,分层级数据加载过程中,