回归模型中的非局部相似性研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:5201314520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线性模型是用来描述多个变量之间线性关系的模型,在成分研究中应用得十分广泛.模型选择理论可以用于确定真实线性模型中的变量.目前,常用的模型选择方法,如逐步回归,AIC信息准则,以及贝叶斯方法等,都是假设数据集的特征是局部的,即仅仅利用单个变量值来构建模型.然而,在许多实际问题中,单个变量的变异性以及变量之间较大的相似性普遍存在,导致这些方法存在决策精度低,小系数变量和相似伪变量无法识别,甚至无法解决变量的决策.主要的原因是这些方法都是基于拟合优度,没有充分地挖掘数据的特征,受到变异性和相似性的严重干扰,从而使得在模型中确定合适的阈值达以到理想的目标函数变得非常困难,甚至不可能.为了解决这一问题,在向前逐步回归模型的基础上,本文提出回归自变量和残差的非局部特征相似性分析模型.向前逐步回归模型的一个重要原则是追求最优的拟合优度缺失(Lack of Fitness),简称为LOF原则.基于该原则,本文提出窗口调整的拟合优度缺失原则(Window-Adjusted Lack of Fitness),简称为WALOF原则.在考虑回归拟合优度缺失的同时,还考虑了回归残差在变量特征片段上的拟合优度缺失,以及与相应的变量在这些片段上的相似度.对于真实模型中的变量,因为特征被拟合,片段上的拟合优度缺失和相似度在其加入前后应该有显著的降低,同时该变量与加入前的残差在某些片段上的相似度较高.对于不在真实模型中的变量,片段上的拟合优度缺失和相似度在其加入前后一般没有显著的降低.同时,因为加入了真实模型中不存在的特征,该变量与加入后的残差在某些片段上的相似度较高.综合回归残差和变量特征片段上的分析,建立一个高维特征空间,对空间中的特征构建二分类优化模型来判断变量是否应该加入线性模型.最后,将本文方法应用在多种镇静剂的识别上,取得了十分优异的效果。
其他文献
目前,我国的农药利用率极低,平均利用率仅为36.6%。在实际的农药喷洒中,液滴的弹跳,扩散和蒸发行为对其使用效率有很大影响。通常添加表面活性剂来调控这些行为,从而提高农药利用率。然而,传统表面活性剂不具有外部刺激响应性。因此,本工作选择研究刺激响应性的表面活性剂。我们选用了带丁二炔的分子,因为丁二炔分子自组装之后,在紫外光或γ射线辐射下可以发生拓扑聚合得到蓝色的聚丁二炔,聚丁二炔的颜色在外部刺激下
固体粒子作为稳定剂可以稳定多相体系,Pickering乳液和液体弹珠均是被固体粒子稳定的多相体系,本文主要研究这两种体系。液体弹珠,用疏水粒子稳定气液界面,形成固体包裹液滴
在本文中,我们考虑低秩张量的去噪问题.张量数据被广泛地用来表示在空间或时间上具有一定相关性的数据,如,图片、视频、高光谱图像等.传统的张量分解模型,如,CP分解和Tucker
环氧苯乙烷是重要的有机合成中间体和精细化工产品,可用作环氧树脂稀释剂,稳定剂,增香剂,甜味剂等。在环氧化苯乙烯制备环氧苯乙烷的多种方法中,以H2O2为氧源的多相催化体系
随着Higgs粒子的发现,大型强子对撞机(LHC)上的两大通用探测器ATLAS和CMS实现了它们的设计目标,为了精确测量Higgs粒子属性和探索新物理,物理学家提出HL-LHC升级计划。该计划
华北克拉通是位于中国东部古老的克拉通。自中生代新生代以来遭遇了严重的破坏和改造,东部岩石圈厚度从200 Km减薄至100Km以下,但西部块体仍处于稳定状态。对于华北克拉通岩
地下鼠由于常年地下生活,进化出了一系列区别于地面鼠的适应性特征,典型特征是繁殖力下降。动物繁殖对维护种群稳定和物种多样性有重要意义。银星竹鼠(Rhizomys pruinosus)作
川芎嗪(Ligustrazine,Lig;Tetramethylpyrazine,TMP)为伞形科植物川芎和姜科植物温莪术根茎及大戟科植物通风麻风树茎中的主要化学成分之一;前期课题组以川芎嗪为母体合成了
CO甲烷化是煤制天然气的关键步骤之一,因此CO甲烷化技术的开发受到了广泛的关注。具有高活性和稳定性的催化剂更是对煤制天然气尤为重要。合成气制甲烷的工艺条件一般为H2/CO
政府相继出台了一系列的优惠政策支持企业开展创新活动,企业研发意愿显著增强,研发投入和成果产出都有所提高。但由于企业科技创新活动的产物具有公共产品和正外部性的特征,