论文部分内容阅读
提出一种基于K-Means和主题模型的软件缺陷分析方法,对软件缺陷的类别和关键词进行研究。获取缺陷报告进行预处理,获取有效特征,利用向量空间模型进行文本表示,计算权重,根据最终特征向量进行聚类;提取每一类缺陷的主题和关键词,帮助修复人员快速找到对应的修复方式。关键词提取结果以单词形式呈现给修复人员。实验结果表明,所提方法在bugzilla、firefox和SeaMonkey这3款软件的缺陷报告共1500条缺陷信息上最终聚类平均准确率能达到81%。