基于最短描述长度的高维特征选择方法研究

来源 :电子科技大学 | 被引量 : 7次 | 上传用户:hedanjiaotong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维特征选择问题也称为稀疏建模问题,是当前机器学习研究领域的热点研究问题之一,目标是解决现有的特征建模方法在高维特征空间普遍失效的问题。主要的研究方法是基于模型参数的1-范数或零-范数约束的正则化方法。当前流行的1-范数方法存在的主要问题是缺乏对相关特征的组选能力和特征选择能力受样本容量限制。而传统的零-范数方法则在稀疏建模实践中普遍存在过拟合问题,主要原因是对模型复杂度的约束条件不合理。最近的理论研究揭示出基于零-范数约束的逐步回归法在理论上能够获得比1-范数方法更好的稀疏建模性能。据此本文从最短描述长度原则出发,通过理论推导建立了三种新型的基于零-范数约束的高维特征选择方法模型,分别是:1.通过向随机复杂度模型中引入模型参数的高斯分布假设,对模型复杂度下界的费舍尔信息近似公式进行推导求解得到一个易于计算的特征选择判据,据此构造出一种基于随机复杂度约束的特征选择方法模型,并通过仿真实验和真实基因数据集上的实验,验证了该方法在稀疏建模任务中的性能优于当前主流的1-范数方法和文献报道的最新相关理论成果;2.通过向基于风险膨胀判据(RIC)的特征选择模型中引入2-范数约束条件,解决了RIC模型从低维特征空间向高维特征空间的推广问题,据此构造出一种基于有偏风险约束的特征选择方法模型,并同样通过仿真实验和基因选择实验验证了该方法在稀疏建模任务中相对于当前主流方法的性能优越性; 3.为尝试建立推广性更好的零-范数高维特征选择方法模型,本文在吸收借鉴前述方法的优点的基础上,通过向随机复杂度模型引入一个Tikhonov类型的正则化因子,削弱了该模型的理论限制条件,据此构造出一个基于有偏最短描述长度的特征选择方法。仿真实验,基因选择及图像分类实验的数据表明,该方法能够有效处理稀疏建模任务,且性能优于当前主流的1-范数方法和和文献报道的最新相关理论成果,在本文提出的三个模型中性能表现最优。上述研究成果证明了基于零-范数的正则化特征选择方法不仅适用于高维特征空间,而且能够获得比1-范数方法更好的稀疏建模性能。同时本文提出的方法模型为解决高维特征选择问题提供了新的研究思路和有希望的解决方案。
其他文献
<正>传送带问题是高中物理习题中的一类典型问题,它涉及的知识面较广,用到的方法较多,物理过程较复杂,对学生的能力要求较高,学生遇到此类问题时感到很难,无从下手。现举例说
体验型课堂是知识与学习主体互动的课堂.注重学生的深入参与,突出多方位交流,追求个性的体验.体验型课堂是亲身经历经验变化的课堂,课堂学习就
加强宣传,全员参与,安庆石化运输部结合职代会工作报告的宣贯,强化“党政同责、一岗双责、齐抓共管”“谁主管、谁负责”和安全属地管理原则、安全环保问责制的落实,形成安全环保
我国的金融会计受经济发展水平的影响,金融会计实务通常领先于理论和制度建设,金融企业的会计科目在设置和使用上也存在体系较大,数量较多,使用比较乱等问题,本文主要就制度
对导弹上使用的自调式节流制冷器、快速启动制冷器及斯特林制冷机进行了总结及概述,并对于应用中可能遇到的技术问题进行了分析.
视频录播系统在区域性初中化学教研中的深度应用,促进了初中化学教研质量的提升,促进了初中化学教师的专业发展。基于视频课例切片的精准剖析,促进教师教学反思;基于课堂观察
自然界经过亿万年物竞天择、优胜劣汰的演化,形成了复杂多样的生命现象,其间蕴含着丰富的信息处理机制。自然计算的宗旨就是研究自然现象尤其是生命体的功能、特点和作用机理
随着现代医学的发展,护理学正逐步成为一门独立的学科,现代护理观和整体护理实践都要求护理人员在临床工作中能独立判断、独立决策、独立执行。这就需要在教学中不断培养学生的
几何概型的概率问题是新课程的新增内容,学生对明显是点分布的几何概型问题较容易理解,但对一些隐性点分布的几何概型问题觉得困难.笔者从等价转化角度解决此类问题,着重讲述了三
拿破仑在一次与敌军作战时,遭遇顽强的抵抗,队伍损失惨重,形势非常危险。拿破仑也因一时不慎掉入泥潭中,被弄得满身泥巴,狼狈不堪。