面向软件缺陷的问答技术研究与系统实现

来源 :扬州大学 | 被引量 : 0次 | 上传用户:erliangpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在缺陷修复过程中,开发人员通常需要利用历史缺陷存储库或其他缺陷资源中的相关的历史缺陷信息,以支持诸如缺陷预测、缺陷定位、缺陷根本原因预测等多项缺陷分析工作,从而能够更好地完成缺陷修复工作。缺陷文本中包含了丰富的语义信息,有效地获取并利用这些信息对于缺陷理解至关重要。然而,目前缺陷研究领域常常是利用传统的关键字匹配技术获取相关的缺陷信息,反馈的信息常常与用户所需缺陷信息并不相关,甚至包含了很多只匹配了某个单词或者字符的无效信息。这些软件资源平台自带的搜索引擎已渐渐无法满足用户信息获取的需要。自然语言问答技术的蓬勃发展,为高效获取缺陷信息提供了一种新的思路。另外,缺陷文本信息本身形式并不统一,非结构化数据和半结构化数据交相混杂,这给缺陷信息理解工作带来了极大的阻碍。针对上述问题,本文从缺陷信息理解的角度出发,就面向软件缺陷的问答技术开展研究。本文首先提出了基于结构化模板的缺陷问答,从缺陷数据中抽取实体和实体关系以构成SPARQL模板,将自然语言问答处理成基于结构化模板匹配的缺陷问答;其次,利用深度学习模型,将缺陷问答问题转换成缺陷自然语言阅读理解任务,提出了基于预训练模型的缺陷问答。具体工作如下:(1)面向软件缺陷领域提出了基于结构化模板的问答。首先,根据缺陷数据的特性,定义了在这项工作中的一些基本概念以及介绍了数据准备工作;然后,介绍了结构化模板的构建过程以及如何利用结构化模板进行问答;最后,利用Bugzilla项目管理库中Mozilla和Eclipse两个项目中的缺陷文本数据完成实证研究工作,并与现有的问答方法进行实验对比。从结果上看,缺陷问答任务在Mozilla和Eclipse两个项目上的问答效果优于现有的问答方法。(2)面向软件缺陷领域提出了基于预训练模型的问答。由于目前在缺陷研究领域没有公开的大规模缺陷数据集可用于缺陷问答研究,所以选择利用大规模的开放领域问答数据集训练BERT模型,然后构建一个小规模缺陷领域问答数据集微调此预训练模型。在这项工作中,创新性地将缺陷问答问题转换成缺陷自然语言阅读理解任务,并为此任务定义特意设计了一组规范来构造缺陷阅读理解数据集。实验结果表明:构建缺陷阅读理解数据集切实可以提升缺陷问答效果,并在Mozilla和Eclipse两个项目上的问答效果优于现有的一些问答方法。(3)从缺陷数据理解的角度出发,结合结构化模板和预训练模型的优点,设计并实现了面向软件缺陷的问答平台。该平台面向软件开发、维护以及软件领域相关的研究人员,包括缺陷事实三元组抽取、缺陷结构化模板生成、缺陷问题重构以及缺陷数据问答四个模块,旨在帮助他们通过自然语言问答的形式高效获取并理解缺陷数据,从而达到加速缺陷修复的目的。
其他文献
云数据中心作为云计算业务的核心基础设施,利用虚拟化技术整合物理服务器集群系统资源,能够高效管理云环境中的资源和应用。云计算服务业务量地不断拓展,云平台规模扩张造成
继父母与继子女间的关系是基于继父(母)与生父(母)的再婚事实而产生的,这种关系和生父母子女之间的关系不一样,其彼此之间并不是以血缘关系为纽带的。继父母子女关系逐渐成为了当今中国家庭中一种常见的家庭关系,继父母对继子女监护权问题引起的纠纷也日渐增多。虽然我国现行法律对于继父母子女关系有所涉及,但是规定的内容太过原则和简单,只通过部分原则性条款加以规定,无法针对性地解决司法实践中纷繁复杂的继父母子女关
我国的探望权制度仅仅规定了离婚后没有直接抚养子女的父亲或母亲享有探望子女的权利,对祖父母的探望权则并未涉及。而近年来司法实践中祖父母要求行使探望权的案件越来越多,司法裁判也并不统一,争议较大。通过对祖父母探望权案例的检索与比较,选择了丁某、王某与白某探望权纠纷案,张某、陈某与王某探望权纠纷案以及艾某、魏某与彭某探望权纠纷案三个样本案例。通过对三个样本案例的分析比较,祖父母探望权的问题主要集中在祖父
移动无线自组织网络(Mobile Ad Hoc Network,MANET)是一种分布式网络,具有去中心化、无基础设施、自适应组网、动态拓扑等特性,被广泛应用于无人机集群、移动传感网络等领域。
随着工业4.0概念的提出,利用信息化技术促进产业变革,打造智能化工厂成为各国工业大力发展的方向。因此,对工业现场设备的运行状态、生产环节的监控,继而通过数据分析的手段
随着互联网技术的快速发展和共享经济理念的深入人心,着眼于实现资源整合共享和集成化管理的物流平台、供应链平台等应运而生,并逐步形成了以平台为核心的供应链体系。平台型
近年来,随着新能源技术、电动汽车以及多电飞机等领域的飞速发展,电力电子装置逐渐向高频、高效以及大容量方向发展。Si IGBT受材料的物理特性限制,其开关频率越来越难以满足
随着大数据技术和语义本体技术的飞速发展,领域RDF数据的规模也不断扩大。如今,领域知识图谱普遍由超过百亿数量级规模的RDF数据构建而成,如阿里巴巴的核心商品知识图谱、大
进入新时代,习近平总书记首次公开提出"树立正确党史观"的重要论述,并围绕学习党史提出了一系列高屋建瓴、视野宏大、思想深邃的新思想、新理论和新部署,开辟了我们全党学习
课堂教学中,PowerPoint材料的呈现位置以及实验和游戏中实体辅助教具的摆放位置都会影响学生的学习效率,这与空间一致性的概念相类似,刺激和反应的空间位置的一致与不一致会影响加工速度。客体一致性效应,即客体Simon效应,是一种特殊的空间一致性效应,指的是当可抓握客体手柄与反应位置或反应手一致比不一致时反应时更短正确率更高的现象。Tucker和Ellis(1998)最早在研究中发现客体一致性效应