基于深度学习的内核bug report分类方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:a15968331849
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度学习领域中自然语言处理具有重要的地位。随着深度学习在这一领域的研究和计算机硬件设备的不断进步,对于文本分类算法的优化也在不断进行。目前,用于自然语言处理的算法主要有CNN、RNN、CLSTM等一些经典的深度学习模型。虽然这些模型能够较好的处理常见的文本数据,但是对于bug report这类噪声较高的文本数据,常见的一些深度学习模型无法较好地完成工作。对于一个有详细信息的bug report,如何确定该report的bug类型,是修复这个bug的工作中至关重要的一环。在获得bug的类型后,分配给相应的开发人员来解决此类bug能够极大的提高bug处理的效率。如何自动分类成为了提高效率的关键。一个bug report主要包括标题和描述信息,而通过利用这些信息进行分类面临着一个较大的挑战。由于bug report中的内容是以代码段和堆栈信息为主,这些信息导致了bug report数据的噪声较高。在常用的深度学习算法中,用来处理自然语言的算法在面对此类文本数据时,无法获得较好的分类准确率。因此,本文使用一种基于注意力机制的深度双向循环神经网络(DBRNN-A)来对Bug Report进行处理。其原理为,可以通过无监督的形式从较长单词序列中学习句子的语法和语义特征,通过注意力的机制使得模型能够记住并且关注bug report中的重要文本部分。该算法能够有效的处理较长单词序列中的上下文,并且能够有效的处理同义词直接的关系问题,较好的对数据集进行分类。在本文中,主要使用的数据集来自于syzbot所提供的bug report,syzbot是基于syzkaller fuzzer对Linux内核的模糊测试报告系统,Syzkaller是以覆盖率为指导的模糊测试器。我们通过对syzbot所提供的bug report进行处理,获取一个基准数据集,通过该数据集进行相应的实验。在实验步骤,使用不同算法模型对相同的数据集进行实验,通过设置实验精度和差异化数据集来验证DBRNN-A模型对于bug report自动化分类的性能。通过设置数据集中标题属性和描述信息属性的组合来检验输入信息的丰富性对模型准确性的影响。
其他文献
高中生的自主意识渐强、学习心理需求增大,这对教师为学生提供的帮助与支持提出了挑战。为解决教师如何提供自主支持来提高学生学习投入以促进学业成就的研究问题,本文通过文献研究、问卷调查、个案访谈等研究方法,以“浓度对盐类水解的影响”为教学案例,分别对教师自主支持与学生学习投入进行理论分析和维度区分,教师自主支持分为降低控制、提供选择、尊重情绪、建立关联这四个维度,学习投入分为学术挑战、同伴学习、师生体验
部编教材的习作有两种呈现形式。一种是每册教材中有一个习作单元,整个单元的内容都围绕习作能力来安排;另外一种是每个阅读单元的后面有一个习作,《国宝大熊猫》就是第六册第七单元中的习作。不管是哪种形式,教材编排时在每个单元的导语中都有一条直接指向习作能力的要求,也就是习作教学需要达到的目标。目标一清二楚,这样的编排还非常
期刊
随着疫情下网络教学工具在汉语直播课的推广,越来越多的孔院应用网络工具辅助线上教学质量的改善。多种网络工具的应用为提高教学互动的趣味性和教学效率提供可能性,但也为教师选择和应用网络工具带来挑战。本文以秘鲁天主教大学孔院成人班的汉语直播课中常用的网络教学工具为研究对象,结合CALL计算机辅助语言学习理论和游戏化学习理论的研究,采用调查问卷法、访谈法和课堂观察法调研了汉语直播课中网络工具在功能和应用上的
近年来网络数据愈加复杂,特别是在可供分析的数据量有限的情况下,越来越高的特征维度直接导致入侵检测的时间效率和检测精度下降。特征选择作为一种常用降维方法,已成为提升入侵检测性能的重要手段。目前单一类型的特征选择方法已无法满足检测性能要求,因此将多种方法进行混合的策略应运而生。然而混合型特征选择依然面临时间效率和检测精度改善方面的挑战。基于上述现实问题,本文提出三种混合式特征选择方案,主要研究内容和创
互联网技术正在蓬勃发展,互联网规模也在日渐扩大,其产生的海量数据给正常的网络运维带来了巨大压力。要进行异常检测、异常根因分析、流量预测等网络运维任务需要拥有完整的监控数据。假设网络中节点数为9),那么进行一次全网测量的代价为(9)~2)。这样的代价对大规模网络运维来说不可接受。已有研究表明网络数据间存在低秩性。通过借助低秩性只需要测量部分节点数据就可以推测出未测量数据。这类使用“采样-填充”架构的
新时期旅游行业的发展要求从业人员具备深度学习的能力,深度学习同时也是中职旅游管理专业人才培养的重要要求。但是,中职旅游管理专业在专业课教学中存在重教轻学,重浅层学习要求,忽略深度学习要求等问题,导致学生学习掌握水平不高、学习能力不强,难以满足行业发展的需要,同时也会影响学生后续的职业发展。因此,有必要理性审视当前中职旅游管理专业课堂教学现状,理清存在问题,关注学生真实学习需求,提出教学优化建议,落
教育信息化发展不断深化,赋予教师教学能力新的内涵。2019年,教育部发布《关于实施全国中小学教师信息技术应用能力提升工程2.0的意见》,提出全面提升教师信息化教学能力,促进信息技术与教学深度融合。由于教学对象的特殊性以及信息技术对于特殊教学的重要作用,培智学校教师更需顺应教育信息化进程,积极进行信息化教学实践,在改善学生学习的同时,促进自身专业发展。但目前学界对于特教教师,尤其是培智学校教师信息化
在线学习平台的不断发展,为国内外众多学习者提供开放且灵活的学习体验。但在线学习中通常存在辍学率较高和学习效果不佳的问题。这推动了学习数据挖掘和分析的出现——致力于借助数据挖掘技术对学习者行为数据进行多维细粒度的分析,有效识别学习模式和学习动机,并进一步探究它们对学习效果的影响,提高成绩预测的准确率。已有的学习数据挖掘与分析方法主要存在三个问题:(1)缺乏对学习者付出-收获匹配度演化模式的了解。(2
伴随着对癌症不断的深入研究,人们越来越认识到突变在癌症演化过程中的重要性,其中对癌症的演化方向和程度有着决定性作用的驱动突变逐渐进入研究者的视野。驱动突变赋予肿瘤细胞选择优势以使细胞逃避人体免疫监控机制,从而在人体内大量分裂并逐步威胁到人体组织器官。随着人们对这种驱动机制的研究深入,逐步发现癌症细胞中突变在基因水平上的倾向分布呈现出在癌症基因上大量聚簇的现象,这种簇被叫做突变簇。同时由于肿瘤异质性
在大型数据中心内部,云网关设备作为数据中心流量的出入口,有着举足轻重的地位。随着互联网时代数据流量的快速增长,云网关需要提供越来越高的性能来承载快速增长的流量吞吐。而当前数据中心的云网关在面对这种快速增长的数据包处理需求和复杂的互联网流量环境时,不仅要满足高性能的包处理能力还需要保障租户的服务质量等级协议,往往无法做到服务质量和设备资源利用率的良好平衡。一方面,厂商为了保证服务质量必须为预期的峰值