论文部分内容阅读
预测理论与方法研究是管理科学与工程的一个重要研究领域,而对回归预测模型的相关研究是该领域的一个持续的研究热点。近几十年来,回归预测模型在工农业、经济管理、教育心理、医药卫生等领域被广泛应用。在初始的回归模型中,为了减少模型的偏差,往往加入尽可能多的变量,但是随着收集的数据越来越多,变量的维数就变得越来越高,预测模型的可解释性和预测精度都面临很大的挑战。对于高维稀疏的数据,求解回归模型时,往往需要求解对应的一个NP组合优化问题,当维数大到一定程度时,传统的方法已不再适用,急切需要对传统的回归预测模型及求解算法进行改进。高维回归模型常常通过变量选择去降低模型的复杂度,进而提高预测效果,一个广泛公认手段是基于惩罚函数的最小二乘法。这类方法是通过约束模型中的某些参数,在损失函数取得最小值的情况下,获得参数的估计值,从而达到预测的目的,其特点是惩罚函数决定变量选择方式,然而在实际应用中,变量之间往往存在复共线性,导致估计不稳定,预测精度不高,甚至丢失一些重要的变量。传统方法(岭回归、lasso回归和弹性网回归等)试图解决这些问题,但没有考虑到变量的先验分布信息,以及变量之间的关联性,预测效果不是特别理想。为了提高预测的精度,本文提出正则化惩罚似然函数法,考虑变量之间的关联信息和先验信息,对未知变量进行估计和选择,同时将这种方法运用到向量自回归模型中进行预测。具体工作如下:(1)本文提出了一种基于桥(bridge)和图拉普拉斯惩罚相结合的正则化似然函数法进行变量选择,这种方法不仅解决了变量的复共线性问题,同时也处理了稀疏模型(变量个数大于样本个数)的变量选择问题。为了建立图拉普拉斯矩阵,我们考虑预测变量间的先验关联信息,以无标度网络拓扑作为标准,基于皮尔逊相关系数建立权重函数矩阵,同时还结合了变量间相互关联的符号信息,并利用原始数据对符号系数进行循环估计。在求解模型的估计值时,本文采用循环坐标下降方法对连接符号进行估计,使用十折交叉验证法确定调节参数,采用修正的牛顿迭代法求出似然函数的最小值估计,对估计的结果进行变量选择。紧接着,本文给出相应评价标准,基于此标准,通过模拟实验对比,将提出的方法与其他惩罚函数方法(lasso回归、弹性网回归、权重融合回归、图正则化回归)进行比较,实验结果表明提出的方法具有更低的预测误差。(2)本文讨论桥和图拉普拉斯惩罚函数的压缩特性。在桥惩罚函数的回归模型中,关于压缩性的结论不完善,关于这种正则化方法的压缩性结论就更不完善,我们验证了估计表达式具有某种压缩性,这也为实例中如何选择正则化惩罚函数提高了依据;(3)本文将提出的方法应用于向量自回归模型。利用时间序列的关联性质,将向量自回归模型转换为线性回归模型进行讨论,首先将未知参变量矩阵转化为向量,然后在这个框架上讨论变量选择问题。在以往向量自回归模型中,没有使用图正则化罚函数方法处理变量选择,本文不仅考虑图正则化惩罚函数,而且将这种方法与桥惩罚相结合,添加变量间的相关联符号信息,利用坐标下降法进行估计,通过模拟实验验证方法的合理性,并将这种方法应用于两个实例,实验结果表明桥和图正则化方法有更好的预测效果。(4)本文从应用角度对提出的模型和方法进行理论分析和可行性验证。论证了估计量的表达式具有统计性质,特别是收敛性质。从统计学角度证明了估计表达式满足中心极限定理和群组效应,这也验证模型的合理性,求解方法的可行性。(5)本文将提出的方法应用于几个实例的预测研究。针对三组人类大肠细菌微生物时间序列数据,使用向量自回归模型的桥和图正则化方法进行相互作用的预测,特别考虑了细菌间关联信息和连接符号。在算法实现中,首先基于原始数据的相似性,建立权重函数矩阵,然后利用循环坐标下降法估计变量间的连接符号,进而预测相互作用。最后,把我们的预测结果与其他惩罚函数法进行对比,实验的结果表明了本文提出的方法效果更好。除此之外,基于生物医学学术会议文章数据,对文章主题的关系进行预测和可视化。