基于Siamese网络的代码相似度检测方法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:Gsea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在软件行业的快速发展产生了一系列的问题,例如软件剽窃、软件知识产权问题等。软件代码相似度研究是软件剽窃、软件知识产权、软件故障定位和软件重用等研究的基础。现有的代码相似度研究存在一些问题:基于属性度量的方法不能精确计算其代码间的相似度;基于结构度量的一些方法不能够更好地获取代码的语义信息;对于一些数据量较小或者缺乏历史数据的软件系统没有一种方法能够更好地度量其代码间的相似度。针对以上问题,本文基于Siamese网络建立了代码相似度检测模型。本文将代码的检测粒度设定为类,首先对源代码执行提取分词、词根还原和去除停用词三个预处理操作,在此基础上使用doc2vec方法将其转化为词向量。doc2vec方法采用神经网络语言模型不断训练优化词的上下文语义,能够解决上述基于结构度量的方法无法获取语义的问题。本文使用Siamese网络训练并提取代码特征,并使用cosine距离计算相似度。Siamese网络使用两个相同的子网络进行训练和提取信息,子网络间采用的参数共享机制能够减少训练的时间,并且减少参数过多带来的过拟合问题,为的是提高正确率。针对缺乏训练数据的问题,本文对最大均值差异(Maximum Mean Discrepancy,MMD)方法进行了改进,并基于此实现对其他软件项目代码的筛选,将选择结果作为训练数据集的扩展。为了证明本文方法的有效性,将Eclipse和Jab Ref两个开源软件作为实验对象,将不进行数据扩展的方法和使用其他向量化模型的方法作为基线方法。实验结果显示本文方法较上述方法在各项指标上都有一定的提升,具有较高的准确性,同时在实验过程中也证明了doc2vec方法对于其他“词袋”方法的优越性和Siamese网络的特征提取效果。
其他文献
自然语言处理目的在于让机器能够理解自然语言,代替人类处理文本信息,减少人力成本,而信息抽取就是其中的热点,深度学习应用在信息抽取取得的结果是目前所有技术中最好的。但是作为深度学习的信息抽取研究的来说仍有不足。命名实体识别与实体关系抽取研究是信息抽取的核心,信息抽取的性能将直接影响到机器对于文本关键信息的提取,从而影响到后续任务的判断,这两个任务是所有自然语言处理应用的关键。因此本文基于临床医疗领域
学位
半导体量子点中,硅量子点(Si-QDs)由于其独特的光电性能成为出色的发光材料,而硅无毒绿色并且材料资源丰富,这些优点使得Si-QDs成为研究的热门材料。随着纳米科学的发展进步,人们对Si-QDs的制备技术、性能优化以及应用都有着极大的研究兴趣。Si-QDs在光电、太阳能电池、生物医学、光催化等多个领域都极具应用潜力。如今,Si-QDs巨大的应用潜力依旧吸引着研究人员们的关注。近年来,研究人员不只
学位
随着WiFi无线网络技术的广泛应用,无线感知的无传感器、无线、无接触性等鲜明特点将人体行为检测和通信系统紧密联系在一起,无设备被动入侵检测的无线感知技术也因此受到越来越多的关注。传统的入侵检测方法通常利用传感器、红外线和摄像头,但这些方法在精度或成本上存在一定问题。无线感知下的入侵检测技术具有覆盖面广、受环境影响小和保护隐私等优势。此外,WiFi感知技术无需人员主动参与整个无线感知过程。然而,尽管
学位
思政教育融入中职语文课程,是中职语文承载党的教育方针,落实国家意志的体现,在立德树人根本任务中发挥着提升素养、文化传承和审美陶冶的价值。但其在教学实施、教学理念、教学内容、教学模式和教学成效方面受制于诸多因素。为此,从当前中职语文课程思政的现实困境入手,积极探索课程思政在中职语文教学中的实施路径,进一步落实语文学科的育人价值,逐步形成学生的正确价值观、必备品格和关键能力。
期刊
物种形成是一个与生殖隔离有关的通过进化形成独立物种的的过程。过去对物种形成机制的相关研究主要集中在种间或者亚种间肉眼可见的生殖隔离现象,也就是在物种形成的中后期。但对于物种进化早期的微弱的生殖隔离现象发生的原因尚不清楚。在这项研究中,本研究使用欧洲大白猪和东亚民猪的杂交群体来探索早期物种形成中生殖隔离和遗传结构的进化。尽管霍尔丹效应在许多欧亚家猪的杂交中并不明显,但本研究使用的的家猪杂交群体数据表
学位
近年来,随着人们对激光雷达系统中眼睛安全性的日益关注,以及传统电信频段的容量饱和,将雪崩光电二极管的工作波长从常规1.55μm扩展到2μm窗口引起了越来越多的关注。本论文在传统的In Ga As/In P SAGCM(Separation,absorption,grading,charge,multiplication,分离、吸收、渐变、电荷、倍增)结构的APD的现有基础上进行吸收层材料的替换,利
学位
高光谱影像具有丰富的光谱和空间信息,相比于传统的彩色图像,具有提供更加准确地辨识感兴趣地物类型的潜力;已经成为地球观测甚至是用于空间探测的重要手段。高光谱图像分类作为高光谱研究领域非常重要且核心的研究课题,一直以来受到较为广泛的关注,并普遍应用在国民经济的相关领域。当前高光谱遥感图像分类任务仍然面临一些困难与挑战:如何进一步挖掘高光谱影像的内在深层次特征;如何解决训练样本缺乏,小样本情况下高维度分
学位
节肢动物是当今地球上物种多样性最为丰富的一类后生动物,主要分为四个亚类:螯肢类、多足类、甲壳类及昆虫类。由于有坚硬外骨骼的保护,与其它动物类群相比,节肢动物的化石数量更丰富、保存更精美。这些化石为节肢动物演化研究提供了重要的材料和证据。本项目聚焦于数量上仅次于昆虫类的蛛形纲动物(Arachnida)中的蜘蛛目化石。这类化石最大的来源之一为琥珀。本文通过对7块缅甸琥珀标本中8只蜘蛛化石进行了外部形态
学位
矿物质对维持有机体的正常生长和繁衍有重要作用,富含天然矿物质的硝塘是植食性动物重要的矿物质来源。亚洲象(Elephas maximus)是亚洲现存最大的陆栖野生动物,被国际自然保护联盟(IUCN)列为濒危物种(EN),也是我国国家Ⅰ级重点保护野生动物,在中国仅分布在云南的西南部,处于极度濒危状态,具有很高的保护和科学研究价值。为研究野生亚洲象对矿物质的偏好,结合云南大学亚洲象研究团队前期(2017
学位
推荐系统因满足个性信息筛选的需求,成功应用于多个领域。现被广泛运用在推荐系统中的算法主要是协同过滤和神经网络。前者存在冷启动、可解释等问题,而后者存在推荐精度不足、可解释等问题。于是,学者开始关注辅助信息的应用,其中就包括了知识图谱。本论文以推荐系统的电影方向为研究目标,寻找将知识图谱引入推荐系统的方法。最后,结合混合推荐的思想,提出了融合元路径与知识协同过滤的推荐模型。本文的主要工作如下:(1)
学位