循环神经网络在缺陷报告重复检测上的研究及应用

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:aorong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究表明处理大量的重复缺陷会对人力造成极大的浪费,特别对于大型的项目来说尤其明显。为了减轻人工检测重复报告的工作量,缩减人工管理缺陷的时间,开展缺陷报告自动重复检测方法的研究是具有价值的。本文系统的分析了重复缺陷报告产生的原因,发展现状及其意义,并对国内外的重复缺陷研究方法及深度学习在文本相似度上的方法进行了综述。最终基于循环神经网络(Recurrent Neural Networks,简称RNN)与Attention机制的理论及技术,将LSTM(Long Short-Term Memory)模型,BI-LSTM(Bi-directional Long Short-Term Memory)模型,双层BI-LSTM模型及使用Attention机制的双层BI-LSTM模型,应用于重复缺陷报告领域,用于计算两个缺陷报告间的相似度。并以开源项目Eclipse产生的缺陷报告作为数据集,对比前人经验筛选出数据源对上述模型进行实验,之后对各模型结果进行了对比与分析,并进行了一定程度的调优。整体思路是将缺陷报告分为相似与不相似两类,当两个缺陷报告计算出的结果大于某个阈值时,即判定为两文本相似。并在各个模型中对不同的参数如学习速度,训练轮次,数据长度等进行调整,使模型得到最优的结果。最终使用Attention机制的双层BI-LSTM模型,在本文的实验中能达到最高的准确率91.21%。其余,LSTM模型的最高准确率为87.42%,BI-LSTM模型的最高准确率为88.94%,双向BI-LSTM模型的最高准确率为90.75%。为了有效体现重复缺陷报告检测模型的功能,本文实现了以重复检测为功能核心的缺陷管理系统。本系统采用SSM框架和MySQL数据库,实现管理缺陷的基本功能,并将模型以定时任务的方式应用于缺陷管理系统中,最终会在缺陷报告详情页面展示与该缺陷报告最相似的5个缺陷报告。
其他文献
贸易自由化一直是国际贸易学研究的重要议题,伴随着以全球价值链为核心的空间分布垂直专业化分工的深化,中间品贸易自由化成为研究的热点问题。自2001年我国加入WTO以来,进口
由于存在晶格、电荷、轨道、自旋等多自由度相互作用,过渡金属氧化物具有丰富的物理性质。氧缺陷工程是研究过渡金属氧化物中新奇物性的重要研究方法之一。其中,氧缺陷包括了
从建立量子色动力学(Quantum chromodynamics,QCD)的理论以来,许许多多的物理学家在量子色动力学的框架下对双光子遍举过程(exclusive processes)做了非常多理论上的预测和实
随着科技的发展,用户对产品的个性化需求日益提高,传统制造行业的大批量流水作业已经无法满足当今时代人们对产品个性化的要求,为了满足人们的个性化需求,针对多品种单间或小
近年来,全球经济社会形势日趋复杂,国内供给侧结构性改革已经进入深水区。全球宏观经济形成新的平衡状态,各新兴经济体纷纷崛起,为全球经济提供新活力,但目前来看经济复苏缓
矩阵分析是数值代数及其应用的重要研究方向.矩阵不等式是矩阵分析中极有吸引力的专题之一.它主要是研究矩阵之间的大小关系.而这种大小关系主要通过矩阵的数值特征例如特征
弹性导电复合材料,是一种能够在各种机械变形下依然保持优异电子性能的复合材料。近年来,随着世界信息化的加速和物联网的发展,对高性能且易加工的弹性导电复合材料的需求在
贷款是指企业或个人为了满足自身生产经营或消费的需要,同金融机构(主要是银行)签订借款协议,借入一定数额的资金,并在规定时间内归还本息的融资方式。而“三农”贷款是新时
信息技术的绩效评价一直是工业工程领域非常关注的问题。近年来,对于IT绩效的研究逐渐从企业层面转向行业层面,行业IT投资绩效的研究开始越来越受到重视。有很多研究结果显示
本篇论文主要研究在具有延迟索赔的离散时间风险模型中,公司如何去利用样本数据(或历史数据)直接构造最优红利策略的相合估计量以及得到最优红利策略控制下Gerber-Shiu罚金函