基于变量选择偏差的变量选择过程

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:mrchangmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据的维度越来越高而且数据中的冗余信息越来越多,统计学习和机器学习从包含大量的冗余信息的数据中学习或发现有用的信息越来越困难,因此在对数据建模前需要进行变量选择。若假设潜在真实模型为线性模型时,常见的变量选择算法有Lasso、MCP、SCAD等算法。但是Lasso算法所选择的模型趋向于包含了大量的冗余变量;MCP算法所选择的模型趋向于选择更少的变量但丢失了部分重要的变量;SCAD算法所选择的模型与潜在真实模型或真实模型的距离较大。因此,这三种变量选择算法都存在它们自身的固有缺点。本文使用了变量选择偏差的概念(变量选择偏差可以有效的删除冗余变量的同时尽可能的保留重要变量),使用它度量选择的模型与潜在真实模型的之间的距离。因而,本文提出了基于变量选择偏差的变量选择过程(下文称为基于变量选择偏差的变量选择算法),同时基于此提出了基于变量选择偏差的变量排序算法。基于变量选择偏差的变量选择算法是选择拥有最小的变量选择偏差值的变量子集为最优变量子集,其最优变量子集与潜在的真实模型之间的对称差最小,在拥有最少的冗余信息的同时尽可能地包含了有用的、隐藏在数据中的结构信息。文中给出了求解最小变量选择偏差值的最优变量子集的过程和方法,并用数学方法证明了该方法的解是全局最优的。基于变量选择的偏差的变量排序,是使用变量选择偏差对变量进行加权,选择变量权大于某个阀值的变量作为最优的变量子集。该算法所得到的变量子集与阀值大小有关。当阀值为0.5时,基于变量选择的变量选择偏差的变量选择算法和该算法所得到的变量子集是一样的。因此,使阀值小于0.5,那么基于变量选择偏差的变量排序算法所得到变量子集会包含有用信息会更多一些,将有助于对未知样本的预测和区分。本文将两个新的算法和三种传统的变量选择算法(Lasso、MCP、SC-AD)应用于仿真数据和真实数据上,将它们的在未知数据上表现出的性能进行了全面的对比。在噪声水平不是很高的情况下,基于变量选择偏差的变量选择算法在模型预测能力上与Lasso相当,强于MCP和SCAD算法,但是选择的冗余变量远少于Lasso算法。因此基于变量选择偏差的变量选择算法所选择的变量子集中与潜在真实模型之间的距离相对于Lasso、MCP、SCAD的更近,更加可以有效的刻画和描述数据。
其他文献
作为一种当今流行的网络结构,P2P技术有别于传统的“客户端/服务器”模式。P2P网络当中的每一个节点都具有平等的地位,每个节点在享用其他节点提供的服务的同时也在充当服务
随着军队机械化和信息化建设的不断深入,多种新式车辆列入部队装备序列,对部队正规化现代化专业化的管理提出了更高的要求,需要运用高科技手段进行有效监管。军车牌照是军车
近年来,基于人工智能技术的问题求解、自动证明、类人答题等应用已经成为研究的热点,并不断取得新的突破。自然语言处理是人工智能研究的一个重要内容,其研究方法主要包括基
随着网络应用技术的飞速发展,流媒体技术也已经在生活中的各个领域普及起来,如:远程教育、网络视频会议、视频点播等,因此对于流媒体技术的研究也越来越受到广大学者的重视。
粗糙集理论是一种处理分析不确定或者模糊知识的数学工具,已经在模式识别、专家系统、故障诊断和决策分析等方面有了较为成功的应用。由于数据库中的数据是动态变化的,数据库
随着信息技术的发展,垃圾邮件成为互联网的主要危害之一,垃圾邮件过滤技术也逐渐成为备受关注的研究领域。在与反垃圾邮件技术对抗中,垃圾邮件发送的手段和技术也不断的更新,
互联网技术的发展及人类需求的驱动,并且数据库技术的齐头并进,这让人类有能力存储和高效管理海量数据。人类积累的数据越来越多,所谓的大数据时代因此产生。面对海量数据,能
分布式网络在信息交换、资源共享、协同工作和并行处理等方面显示出的优势,使其迅速成为网络发展的方向。分布式网络具有开放性、动态性、自治性等特性,相对于传统的C/S网络
近年来,射频识别(RFID)技术快速发展,阅读器侦测范围的增大与识别率的提高,标签种类的丰富与成本的下降,促进RFID技术在越来越多的领域得到应用,且应用范围正在从大宗贵重物品转向
P2P技术是近年来流行的计算机网络结构,不同于客户机服务器结构,P2P中所有的节点都是平等的,没有严格的提供者和消费者的区分,网络中也不存在权威中心对这些节点进行管理。开