基于深度学习的开源社区问题报告的自动分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:luoxueyan191
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着开源软件运动的不断深入,越来越多的用户和开发者使用问题追踪系统(Issue Tracking System)来报告问题,包括在使用过程中发现的软件缺陷,对新功能的期望和对改进的建议等。这些问题报告中所包含的用户反馈十分有用,能够帮助提升软件质量,也能够帮助开发者更好地收集用户需求。然而,问题报告的数量十分巨大,一个项目的问题报告能达到数万条甚至数十万条,这使得人工逐一分析问题报告会耗费开发者很多的时间和精力。而且,问题报告的质量参差不齐,开发者难以第一时间将目光聚焦在更应该得到紧急处理的,与软件缺陷相关的问题报告上。因此,我们着眼于研究自动化问题报告分析,具体地说,是如何自动地从大量的问题报告中识别出与软件缺陷相关的问题报告,使得开发者能够第一时间处理并修复。问题报告通常包括标题、描述、上传者、优先级等多种属性,其中标题和描述属于文本属性。不同的问题追踪系统中问题报告的格式和属性也不尽相同,这给问题的分析和识别带来了许多挑战。现有的研究较少关注于此类自动化分析,且现有的问题分类方法难以应对跨平台的,高精度的缺陷识别任务。在本文中,我们提出了一个基于深度学习的两阶段分类方法来在问题追踪系统中识别bug相关的问题。首先,我们从GitHub和Jira上收集并预处理了约150万条问题。接着,我们训练了一个基于注意力机制的双向长短期记忆模型,作为我们第一阶段的分类。在第二阶段,我们提取了问题的描述信息和近邻的类别信息作为补充特征。我们将这些补充的特征以及一阶段获取的预测类别和概率一同输入支持向量机分类器中,获取最终结果。由于我们使用的信息是各大问题追踪系统中共有的,因此我们的模型能够支持市面上主流的各种问题追踪系统。我们的实验评估显示我们的结果能达到0.866的平均F-score,显著超过了用于对比的基线方法和其他国内外现有工作。此外,实验还分别验证了论文第一、二级分类模型的有效性,以及模型整体的跨平台性。实验证明我们的模型能够在不同平台下良好工作。
其他文献
近年来,伴随着我国快速的城市化进程,以灰色设施为主的城市防洪排涝安全工程建设,对流域-城市的水生态系统造成了严重的破坏,加上我国在城市雨洪管理体制上存在着不足,加剧了我国城市的雨洪灾害风险。海绵城市作为新一代的城市规划建设方式,能够有效提高我国雨洪管理能力、降低雨洪灾害风险,自提出以来就得到了我国各级政府和相关学者的高度重视,并在各地积极的展开了实践探索。然而,目前海绵城市的建设存在着局限城市内部
深度学习的飞速发展直接促进了计算机视觉领域的发展,使其更广泛地服务于人类社会。图像风格迁移就是一项计算机视觉任务,是将一张图在内容不变的情况下变换成具有另一种风格图像的操作。很多研究人员利用深度学习在图像风格迁移方面取得了很好的研究成果,Goodfellow 提出 GAN(Generative Adversarial Network,生成对抗网络)后,更是为风格迁移研究打开了一扇新的大门。本文运用
随着生产生活中含油污水的大量排放以及海上原油泄漏事故的频发,水中油污染已成为危害人类健康和环境安全的重大问题。如何实现高效的油水分离已成为亟待解决的难题。具有特
现如今,网上用户信息泄漏事件频频发生,跨站脚本检测作为网络攻击检测的一部分,是网络安全领域研究人员的研究重点之一。传统的跨站脚本检测技术大多使用机器学习方法,存在代码被恶意混淆导致可读性不高、特征提取不充分并且效率低等缺陷。因此,本文提出了构建基于深度学习的XSS检测模型,有效地提高了模型对跨站脚本的特征提取能力,提高了模型检测的准确率并降低了模型检测的误报率。本文主要工作如下:1.分析了跨站脚本
无线电广播电台在信息传播中扮演着重要的角色,不仅肩负着向国内和国外宣传我国党的路线方针政策的艰巨任务,同时对整个社会的经济发展和百姓精神文化生活质量的提高都有着无法取代的积极影响。本文对我国广播监测的基本任务、国内外自动化广播监播系统的发展历程及广播音频的一些特点进行了详细分析,发现广播音频主要特点是存在时延、并且动态范围大、频谱范围广,存在形态不一的随机串扰。分析了传统基于音频特征参数的音频比对
当前,中国经济进入了经济增长速度转变、结构调整阵痛和经济刺激政策“三阶段叠加”,进入了经济发展的新常态。我国石油化工产业的发展面临严峻复杂的环境,具体表现为:受宏观经济波动和贸易摩擦、保护主义等政策冲击;能源化工产品价格和汇率波动等市场波动;全面禁止使用塑料、低碳经济、可再生能源和先进材料替代环境保护和可持续发展的压力;面临着大量资产项目建设投入生产、高科技催化剂研发等工程技术难题。有利条件和制约
在交通建设如日中天的发展中,无论是铁路穿山辟岭,还是城市轨道交通贯通全城,都需要隧道建设作为基础支撑。隧道具有改善道路线型、提高土地利用效率等优势而被大范围应用。与此同时,在隧道建设和运维中因隧道形变导致的坍塌事故越来越多,故隧道形变监测工作至关重要。现有非接触性装置能够进行形变监测,但在时效性、鲁棒性等方面存在局限性。本文以视觉为切入点,以Lab VIEW及其视觉工具包为平台,研究一种隧道围岩形
玉米秸秆是草食类家畜的主要饲料来源之一,其酸性洗涤纤维(ADF)的含量在玉米植株育种、品种筛选、家畜食用价值提升等方面具有重要意义。本文在详细分析玉米秸秆中ADF的化学官能团机理的基础上,提出使用近红外光谱(NIRS)技术快速无损的检测玉米秸秆中ADF含量。本研究获取的569份玉米秸秆样本,均来自于黑龙江大学呼兰校区种植基地,采用近红外光谱仪与全自动纤维仪分别测量样本在400-2500nm范围内的
随着经济全球化的进一步扩张,企业间的竞争越来越激励,如何提高财务绩效以在竞争中处于优势地位成为企业的重要关注点。高层管理团队对企业的生产经营方式及内容起到重要的决策作用,与企业财务绩效存在着必然的联系,对此,近年来国内外学者及企业自身对这一联系进行了越来越深入的研究,研究结果也向我们证明了高层管理团队的特征确实对企业财务绩效产生着深远影响,然而这些结论在为我们揭示高管团队特征与财务绩效联系的同时,
进入二十一世纪,国内外高校在人才、资金等方面的竞争越来越激烈。由于资源的稀缺性,使得预算管理的重要作用日益凸显出来。通过科学合理的预算,有助于各高校将有限的资源合理地分配至重点扶植学科;也有助于各高校统筹资源,将资源合理分配至各行政部门和各院系,实现资源的统筹规划以及各部门之间的密切联系。另外,高校当前的资金来源中,除了传统的财政拨款外,其他类型的筹资方式也逐渐增多起来。与传统的校级一级预算管理模