基于LDA模型的重复缺陷报告检测的研究

被引量 : 0次 | 上传用户:hexiaole632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺陷报告作为软件维护周期过程中产生的缺陷描述数据,由于这些报告通常由对软件本身了解甚少的用户匆忙撰写而成,它们不仅存在着表达模糊、不专业、信息不全、难于理解等问题,还存在于同一缺陷被反复重复提交的问题,由此造成提交上来的缺陷报告中存在有大量冗余重复的缺陷报告,对于此类重复缺陷报告如果反复被分派给开发者,势必造成人力资源的严重浪费,特别对于大型开源项目而言此类问题尤为明显。为了减轻人工检测重复缺陷报告的负担,国内外很多专家学者投入到重复缺陷报告检测领域的研究并提出了一系列的重复缺陷报告的检测方法。但是由于传统的重复报告自动检测方法普遍采用向量空间模型作为理论基础,构建的向量空间存在维度高、数据稀疏且有嗓声等问题,降低了检测执行效率,查全率和查准率较低。针对以上问题,本文提出了一种全新的基于主题模型理论的检测方法,潜在狄利克雷分配模型(LDA,Latent DirichletAllocation)是最简单的主题模型,通过LDA模型能够将缺陷报告文档从传统的高维的单词空间映射到低维的主题空间,最后在低维的主题空间上计算文档之间的相似度,从而大大地降低了待处理空间的维度并提高了算法了检测执行效率。本文的主要工作如下:1.通过大量查阅国内外相关文献,分析了本课程的研究背景以及国内外研究现状,明确了该领域内目前存在的问题并提出了相应的解决方案。2.通过分析缺陷报告的分布情况,构建了本实验的样本空间,并在该空间内抽取了所需要的缺陷报告数据,之后对实验数据进行了预处理,预处理主要包括两步:数据基本清理和数据深度清理,从而保证了实验数据的有效性和可靠性。3.摸拟传统的重复缺陷报告检测方法进行对比实验,首先介绍了向量空间模型理论,然后分析了特征项选取和权重计算方法,之后通过向量空间模型计算了缺陷报告的相似度并对实验结果进行了评估。4.针对传统方法的弊端,完成基于潜在狄利克雷分配模型的重复缺陷报告检测实验,实验过程首先利用LDA构建主题模型,其次构建了实验的测试样本空间便于验证实验效果,再次分别计算了执行信息相似度和分类信息相似度,之后将两者进行加权和得到缺陷报告的最终相似度,最后对实验结果进行了评估。实验结果表明,基于潜在狄利克雷分配模型进行重复缺陷报告检测,可以很好地解决传统方法高维度、高嗓音的缺点,同时加入执行信息和分类信息后可以大大提高实验结果的准确度。
其他文献
探讨了中高渗透层(渗透率为50×10-3~200×10-3μm2)压裂配套工艺.在蒙古国19区压裂作业中采取了阶段式压裂液滤失控制技术、油气层保护技术、蜡球分压技术、全三维压
上世纪八十年代以后,中国山水画画坛中以太行山为题材的山水画研究与创作,已经蔚成风气,产生了许多有影响的画家,形成了厚重朴实、雄壮刚劲、极具地域特色的山水画风格,成为了当今
从知识考古学的角度对政党概念的形成、政党的原始属性、政党产生的根源等政党理论中的基本问题进行分析 ,有助于人们对政党概念的准确理解。“政党”(party)这一政治概念的
纪念性建筑无疑是人类最为古老的建筑类型之一,在它漫长的发展历程中,从形式到功能到情感表达都经历了很大的变化。纪念性建筑的外部空间作为纪念性建筑这个整体中不可或缺的组
随着网络在社会生活各个领域的渗透,我国社会对其的依赖也日渐加强。与此伴随而来的是网络舆情突发事件的发生也越来越频繁。为此,对网络舆情突发事件的参与者群体构成及其行
随着世界能源短缺问题的日益突出,建筑节能逐渐成为全球各国共同关注的研究主题。目前,欧美日等发达国家在建筑节能研究方面走在了世界前列,这些国家在低能耗建筑设计的标准规范
近年来违法犯罪分子对公民的诈骗呈上升趋势,公民被骗的事件屡屡见诸报端,想必已经是每个人都比较熟悉的事。接到陌生来电、陌生短信、陌生电子邮件都已经习以为常,恐怖的是对方
随着大跨度空间钢结构在我国的迅速发展,采用相贯节点的空间钢管桁架结构凭借其自身的众多优点,成为一种常用的空间结构体系,并广泛应用于工业建筑、体育建筑、交通建筑、展览建
2001年,李安导演的《卧虎藏龙》获得了奥斯卡最佳外语片奖、最佳摄影奖、最佳音乐奖和最佳艺术指导奖五项大奖,该影片在奥斯卡的夺冠让世界领略了中国武侠世界,同时也让获得最佳
自从1995年Refregier和Javidi提出双随机相位编码技术(DRPE)以来,有关光学图像加密就成为了国际上信息安全领域研究的热点。之后,DRPE技术也被用于信息隐藏和数字水印领域,以实