论文部分内容阅读
观察数据中发现变量之间的因果关系,解释事件是如何发生以及预测其未来发展趋势,几乎在所有学科中都有研究和应用。例如医学、生物学、经济学、物理学、社会科学等领域均把因果关系作为解释、预测和决策的基础。信息科学领域,可以使用贝叶斯网络中的马尔科夫毯(边)来表示真实世界中的因果关系。近年来,有学者采用基于回归正则化模型马尔科夫边的发现方法从观测数据中研究事件之间的因果相关性,并从理论上揭示了基于回归正则化模型的特征变量与马尔科夫边之间的关系。为了深入了解回归正则化模型马尔科夫边的发现性能以及置换检验方法对发现性能的影响,本文采用基于回归正则化模型与置换检验方法相结合的方式开展相关研究。具体内容包含下面四个方面:1.解剖了现有的修改岭回归模型(MRRLM-P:modified ridge regularized linear models with permutation)马尔科夫边的发现过程及其无法适用于变量共线数据集的不足,研究了变量共线与协方差奇异之间的关系,并提出一种新变种岭回归模型(NVRRLM-P:new variant ridge regularized linear models with permutation)。2.继续围绕MRRLM-P的不足,将三种经典回归正则化模型(岭回归模型、LASSO(least absolute shrinkage and selection operator)模型和弹性网络模型)与置换检验方法结合,以实证的方式在低维数据集上考察他们马尔科夫边的发现性能并与MRRLM-P比较。3.在回顾多元回归模型假设检验的基础上,讨论了置换检验的三种不同实现方法并分析了其在正则化模型中的表现形式及应用效果。其中,两种实现方法首次用于正则化模型马尔科夫边的发现,拓展了置换检验方法的应用范围。4.以一个具体的土壤近红外光谱分析应用实例,借助马尔科夫毯(边)理论对土壤有机质及麦角固醇含量的光谱矩阵进行“降维”,并使用最小二乘支持向量机(LS-SVM:least squares support veotor maohine)和 LASSO-P 建立校正模型。研究结论:新变量岭回归模型能够很好解决MRRLM-P不能适用于共线数据集的缺陷;在低维数据集上,存在与MRRLM-P有相近的马尔科夫边的发现性能的经典正则化模型;置换检验新拓展的二种实现方法略逊于先前的实现方法;马尔科夫毯(边)的理论能有效对光谱信息矩阵进行“降维”操作,两种校正模型均能很好地反应检测对象对光谱信息的依赖性(相关系数大于0.90)。