方差正则化的交叉验证模型选择方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:wangjie198811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器学习的主要目的是依据训练数据集建立预测模型,用以描述给定数据的统计规律,并通过已有的模型对新数据进行预测。其中,模型的建立和选择是关键。所谓模型选择,指的是通过估计已建立的不同模型的性能,从而选出其中最好的模型。在传统的统计回归分析中,模型选择指的是变量的选择,从上世纪60年代开始它就一直是统计学中的重点研究问题。分类情形的模型选择主要包括两个方面:一方面是分类器(分类算法)的选择,对于给定的某个数据集,基于某个性能度量指标选择多个分类器中性能最好的一个;另一方面是特征(变量)的选择,选择一个最优性能的特征组合。现有文献中,回归和分类模型的选择常常是直接基于泛化误差的估计来进行,如基于广泛使用的泛化误差的交叉验证估计方法来进行模型的选择。然而,注意到基于这些估计的方法在选择模型过程中只使用了估计本身(均值的信息)而没有考虑估计的方差的信息,这样较大的方差将导致模型大的波动,趋向于选择较复杂的模型,从而导致模型较低的泛化性能。因此,本文将方差作为正则化项添加到传统的回归和分类模型选择准则中,提出了一种新的交叉验证框架下的方差正则化的模型选择准则。首先,通过模拟实验验证了方差正则化项在模型选择中的重要性。接着,大量模拟和真实数据上的实验验证了无论是对于回归还是分类任务,提出的方差正则化模型选择准则相比传统模型选择方法都能选择到具有更小泛化误差的更简单模型。进一步,从理论上证明了提出的方差正则化的交叉验证模型选择准则具有选择的一致性,即在有限样本下选择的最优模型在样本趋于无穷时同样成立,保证了模型选择的稳定性。
其他文献
目的:随着外科学、创伤基础理论研究以及材料学的发展,胸部创伤的治疗以及肋骨骨折固定材料得到快速的进展,聚左旋乳酸作为一种可吸收材料,也广泛应用于临床。目前各单位胸外科常用的肋骨骨折内固定材料包括聚左旋乳酸肋骨钉、纯钛环抱器,两者各有优缺点。关于两者在体内的分子炎性反应、血生化及植入后周围肌肉的病理特点等生物学特性,涉及该方面的研究很少。本研究旨在通过在动物体内分别植入聚左旋乳酸肋骨钉、纯钛环抱器两
我国是化肥生产大国,也是消费大国。我国的合成氨生产以煤为原料占70.2%,以天然气为原料占21.4%,以油为原料占8.4%。以油为原料的企业由于原材料供应不足和价格上涨,均处在严重亏损状态
本文提出加强信息安全道德伦理和法律法规教育、充分运用教育资源开展信息安全意识教育等对策。
在本篇综述报告中,分别对双指数分布族的刻度参数及Weibull分布的损失函数以及风险函数的Bayes估计和EB估计,以及截尾试验下指数分布的Bayes估计等相关理论进行了综述。首先,
二板式注塑机以其锁模精度高、性能稳定可靠、污染小等优点,在医疗用品、食品包装等领域得到了极大的应用。但目前二板式注塑机的研究与应用多针对中大型深腔制品,专用于微小
论述油田注水泵和原油输送泵应用液力偶合器调速运行的必要性和节能效益。
有机-无机杂化太阳电池是目前太阳能研究领域的热点研究方向。相对于无机太阳电池和有机太阳电池,有机-无机杂化太阳电池综合了无机太阳电池与有机太阳电池的优势,因而受到广
机床电器在超出一定高度的使用,不但会减少电器的使用寿命,同时也会给操作带来一定的不利影响,所以在高海拔地区应用机床电器要认真考虑诸如分断能力、工作电流、绝缘强度等的降
在教学过程中正确适时地运用赞美艺术,能帮助职高生树立正确的世界观、人生观及是非观,让学生在新的环境中找到自己的位置,在学习和生活中获得愉悦感和安全感。到位的赞美要
不再有童年的嬉闹趣事,不再有少年时期的载歌载舞,也不再有昔日的欢娱悠闲,有的只是争分夺秒,只是蓬头垢面,只是槌头棒喝——且看我的高中生活: