论文部分内容阅读
建立在统计相关分析基础上的回归分析是统计学的经典内容之一,在统计理论方法体系中占有很重要的位置。它不仅内容十分丰富,而且应用也极为广泛。正因为如此,一代统计学大师K·PEARSON曾一针见血地指出,90%的统计学的研究任务就在于讨论和研究不成函数关系的两个或两个以上变量之间的相依关系。在具体应用回归分析原理解决实际问题的时候,究竟使用多大规模的样本,才能实现相关与回归分析的目的,才能达到较好的统计推断效果,这是一个值得重视和讨论的问题。我们知道,样本容量过小,比如极端的情况只有两对观察资料,那么由解析几何两点确定一条直线原理,就没有必要讨论相关与回归分析的随机性,也无法解释为什么要在分析模型中引入随机性因素。观察次数太少,由于样本信息不充分,会导致模型估计结果的稳定性非常差,再就是也无助于揭示和掌握经济现象之间的统计相依关系。样本容量似乎也不能过大,如果盲目要求样本观察越多越好,一方面会增加不必要的数据搜集成本,另一方面可能会造成数据信息上的冲突和干扰,反而不利于模拟出带有统计规律性的东西。更何况在社会经济领域,有许多问题的研究其可供利用的资料来源本来就有限,是非人力可以扩充和增补的。有鉴于此,在相关与回归理论研究中,人们很早就注意到了如何通过有限的样本观察来实现统计相关与回归分析的认识功能,像把经典的回归分析与统计实验设计结合起来,形成的回归分析的正交设计、回归分析的旋转设计、回归分析的最优设计等就是比较典型的例子。原则上讲,这些方法在自然科学和工程技术领域应用比较有效,联系到社会经济领域,由于不具备统计实验的条件,如果一味地依据实验设计的办法确定最优样本容量,操作起来几乎没有多大的可能。由于没有一个客观的数量上的参照依据,在实际应用相关与回归分析时,有关样本容量的确定多半是比较随意的,或者是经验之谈,比如:样本观察数目应该是待估参数个数的倍数,样本容量不能低于30,最好能达到50甚至100以上,把能够搜集到的有用数据都找到等。
在本文中,将基于统计势函数的规则,对简单线性回归分析时模型中的参数推断,以及预测时的样本容量确定问题进行一般性的讨论。