论文部分内容阅读
随着软件行业的不断进步,软件规模度量和软件成本估算已成为软件工程领域的一个重要组成部分。各种不同的估算方法也在各自适用的领域中发挥着重要的作用。而统计分析原理则为各种不同的软件成本估算方法提供了一种科学的数据分析方法,为精确的预测软件的成本打下了坚实的基础。回归分析理论作为统计分析学的一个重要组成分支,相对其他估算方法而言具有其独到的优点,它客观性强,可以完整的提炼出历史数据中的宝贵信息;同时,它具有非常好的可重复性;另外,它有着非常成熟的理论体系和支撑操作环境。因此,回归分析法一直是研究人员和软件估算人员进行成本估算的常用方法之一。本文首先研究了常见软件成本估算方法,分析了各种方法的估算原理及其优缺点,并重点研究了统计分析原理中回归分析法,分析了一元回归法、多元线性回归、多元逐步回归法、岭回归及加权回归的核心思想,仔细分析了上述各种回归分析方法在软件估算活动不同阶段中的适用范围和注意事项,并在上述工作的基础上给出了使用统计回归方法进行软件估算的一般过程,阐述了在采用统计回归法进行软件成本估算时中采用的回归分析方法。针对分析历史项目数据集时遇到的一些具体问题,本文给出了相应的解决方法。在历史项目数据集预处理环节,我们引入了Cook距离、Mahal距离等统计量,完成异常数据检测工作;采用逐步回归法完成历史项目数据集的属性选择工作,并采用方差分析法对数据集中的类别型属性因子进行分析,建立回归估算模型;并将岭回归、加权回归等方法应用于回归估算模型的校准环节,以消除因属性因子之间存在的多重共线性及异方差性对模型估算精度造成的负面影响,从而提高回归模型的预测能力。采用F检验、t检验对回归模型及模型中各因子的系数值进行假设检验,采用残差图示法进行残差值的分析。针对最终的回归估算模型,我们采用相应的测试集对模型的预测能力进行量化,并通过MMRE和Pred等统计量具体反映出来。上述方法及统计量的引入,使得回归估算模型得到了逐步的完善,其预测能力有了不同程度的提高。最后,本文对两个不同类型的数据集采用回归估算流程进行建模分析。在此过程中,我们具体的计算了回归分析各个环节中的模型性能和预测能力。实验结果也证明了异常数据检测、模型检验、残差值分析及模型校准等关键环节对于提高回归模型预测能力的积极作用。