【摘 要】
:
代码的注释可以提高程序的可读性,有助于程序员高效推进软件的维护工作。因此,代码注释自动生成的工作具有重要的研究意义;然而,生成高质量的代码注释具有很大的挑战性,主要有两个方面原因:一是代码中包含很多封装好的类、函数方法等,隐藏了大量指导性信息;二是代码具有丰富的嵌套结构和复杂的调用关系,加大了理解的难度。本文综合考虑利用函数描述信息、代码序列信息及代码结构信息等,研究和改进基于深度学习的代码注释自
论文部分内容阅读
代码的注释可以提高程序的可读性,有助于程序员高效推进软件的维护工作。因此,代码注释自动生成的工作具有重要的研究意义;然而,生成高质量的代码注释具有很大的挑战性,主要有两个方面原因:一是代码中包含很多封装好的类、函数方法等,隐藏了大量指导性信息;二是代码具有丰富的嵌套结构和复杂的调用关系,加大了理解的难度。本文综合考虑利用函数描述信息、代码序列信息及代码结构信息等,研究和改进基于深度学习的代码注释自动生成算法。论文主要工作包含以下三个方面:(1)实现了一个基于seq2seq框架的代码注释生成基准模型。代码注释自动生成的基准模型是利用双向循环神经网络对代码片段进行编码,学习代码的上下文信息,再生成对应的注释。其中,利用注意力机制为代码token分配相应的权重,通过解码算法对输出词表上的概率分布进行采样以生成可能性最大的序列。(2)提出了结合函数描述信息的代码注释生成算法。针对现有代码注释生成任务对函数文档信息利用缺失的问题,本文利用从python标准库和第三方库抓取的函数描述信息,提出了两种融合代码序列和函数描述信息的模型:一种是编码时将函数名称及其描述信息组合到一个新的向量中,以取代代码中函数token的表示;另一种是利用指针网络产生指向函数描述信息的指针,从描述信息中选择性复制可能作为输出的词,生成最终的自然语言注释。(3)设计与实现了结合结构信息的代码注释生成算法。针对代码注释生成任务中代码的语法结构信息利用不足的问题,引入抽象语法树来丰富代码语义信息。本文首先利用Tree-LSTM对代码抽象语法树结构编码,实现了基于Tree-LSTM网络的代码注释生成算法;进一步,本文设计了基于双向树编码器的代码注释生成算法,利用BiTree-LSTM编码代码的抽象语法树结构,以实现对树结构信息的双向利用。其中,我们设计了混合注意力机制来融合代码序列和结构表示,以更好地生成最终的自然语言注释。本文对提出的结合函数描述信息和结合代码结构信息的代码注释生成算法在公开的Conala数据集和Django数据集上做了一系列实验,实验结果表明,本文提出的改进方法明显优于基准系统。
其他文献
在新时代背景下,德国率先启动了新一轮的工业革命“工业4.0”,随后在我国在科技革命和产业转型的背景下提出了“中国制造2025”的重要战略方向,说明了工业制造已经向“智能工厂”、“智能制造”的趋势发展。汽车工业是国家重点发展的领域之一,也是国民经济体系中的重要构成。汽车制造主要由四大工艺组成:冲压、涂装、焊装、总装,其中焊装工艺的结构复杂、特点明显,是四大工艺中尤为重要的一环。本文对轿车后地板骨架焊
美国当代女作家安妮·赖斯以描写吸血鬼而闻名于世,其小说中的故事时间跨度几千年,展示出极其绚丽的吸血鬼生存图景,构建出的庞大吸血鬼帝国颠覆了受众对传统吸血鬼形象的认知,以一种现代化的方式重新书写吸血鬼的故事,打破了传统吸血鬼形象的善恶对立性及吸血鬼与宗教在源头上的联结,她将人类与吸血鬼的对抗转向重点描写吸血鬼自身心理上的对抗,具有人性的吸血鬼不仅展示出现实社会人的精神状态,迎合着现代人的审美趣味,更
朝鲜在三国时代(百济、高句丽、新罗)已经开始观测日食、制造刻漏、使用历书,其中百济采纳了中国南北朝时期的元嘉历,并持续引进了中国的历法和历书。经过朝鲜三国时代和高丽
电视法制栏目作为我国法治社会建设过程中的重要一环,伴随着改革开放的不断深入而稳步发展,承担着向老百姓宣法普法,传递法制观念的重要责任。近年来,随着融媒体相关概念的不断升温以及社交媒体、短视频平台等的兴起,电视法制栏目顺应时代潮流,在诸多层面均展开了融媒体实践,展现出了一些新的特点。然而,也正是在如今这样的媒介环境之下,传统电视法制栏目遇到了种种现实困境,产生了不少问题。在此背景下,分析融媒体时代电
现阶段,钢框架结构在多层、高层和超高层建筑以及大跨度结构应用方面具有广阔发展前景,与其他建筑结构相比,它具有强度大、刚度大、稳定性好、整体性好、重量轻、承载力高、抗震性能稳定、滞回性能好、施工效率高、周期短等优点,在现代城市的建设中,其已经成为了目前最热门的结构形式之一。与其他国家相比,我国钢结构的相关方面发展比较慢,也比较滞后。所以,我们对于钢结构的技术层次应加大力度研究。本文通过试验与有限元分
本论文选取刊载于《大陆》杂志一九四四年十二月号的井伏鳟二的短篇小说《与饶舌老人交谈》作为研究对象,以此为基础对二战末期井伏鳟二的文学创作特点以及作者对于战争的态
目的:血清α-L-岩藻糖苷酶(Alpha-L-Fucosidase,AFU)是人体内催化含盐藻糖甘酶寡糖、糖蛋白、糖脂等大分子物质的溶酶体酸性水解酶,已被证实是早期诊断原发性肝癌的特异性标
伯纳德·马拉默德是活跃在二十世纪中后期美国乃至国际文坛上的战后作家之一,他因擅长刻画在战争戕害下精神和肉体上千疮百孔、屡遭异化折磨的犹太移民而自成一家。马拉默德小说再现了边缘化失语状态的犹太移民所面临的生存及文化身份困境,他的创作对挣扎在异族本土文化夹缝中的犹太人民心灵起到了巨大的慰藉和疗救作用,因而备受世界各国读者欢迎。本文在文学治疗视域下观照马拉默德小说,其作品是疗治自我、疗救他人(犹太移民甚
乔治·奥威尔(George Orwell,1903—1950)是20世纪英国杰出的小说家、社会评论家,他一生共创作了11部文学作品,包括3部纪实文学、2部评论集和6部小说。本文以乔治·奥威尔的3部代表作,即《缅甸岁月》《牧师的女儿》和《上来透口气》为研究对象,运用边缘人理论分析其作品中人物的生存困境,以此引发人类社会对边缘人的关注与反思。绪论部分主要分为作家及作品介绍、问题的提出、研究综述、理论界
雅克·朗西埃是法国当代著名思想家,曾致力于工人运动和马克思主义政治问题的研究,后期的研究由政治哲学转向了文学和艺术。朗西埃对文艺理论研究涉猎广泛,提出了“文学政治”主张,从“文学性”、底层书写和知识诗学等方面来阐述文本政治的主张,对20世纪文学批评关键词之一“文本”进行思考,扩大了文学的外延。选取文学文本、历史档案文本、知识理论文本进行分析,体现出文本与政治哲学之间的张力关系。试图剖析政治、文学文