机器学习中特征选问题研究

被引量 : 0次 | 上传用户:leonontop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的日益发展,在各个领域中所采集的数据集规模不断增大,特别是高维数据中存在的大量冗余和无关特征给机器学习带来了巨大的挑战。特征选择是为了解决高维度数据计算问题而衍生的,通过剔除冗余特征和无关特征,提高机器学习算法的泛化性能和运行效率。随着研究的深入,特征之间复杂的相互关系对机器学习算法的影响被逐渐地认识到,如何在特征选择过程中识别和保留具有交互关系的有益特征组合,是目前仍未很好解决的难题。本文主要致力于辨别特征相互作用中冗余和依赖关系,研究能够选择出高度相关、内部依赖和低度冗余特征子集的Filter特征选择算法。提出了基于Banzhaf权利指数的特征评估及选择算法、基于Shapley值的特征选择算法优化方法和基于动态加权的特征选择算法。针对基因表达数据在疾病诊断中的应用问题,提出了基于动态相关性分析的基因选择算法。在公开测试数据集上的实验结果表明本文提出的这些算法均能获得良好的性能,达到了预期的效果和目的。
其他文献
近些年来,中国经历着快速的城市化进程和高速的经济增长。然而,城市经济和社会活动对环境也造成了沉重压力,环境的恶化已严重影响到居民的生活质量。比较乐观的是,环境库兹涅茨曲
目的:本研究拟探讨干细胞相关基因Oct-4在宫颈癌中的表达情况及其与宫颈癌生物学行为和预后的关系。实验材料与方法:应用无血清悬浮培养技术筛选出原代宫颈癌细胞中具有稳定克
β系数作为衡量资产系统风险的指标,在国外比较成熟证券市场上的应用较多,在我国证券市场上的应用还处于起步阶段。我国上海证券交易所和中证指数有限公司于2012年8月6日正式发
近年兴起的矿山物联网技术作为下一代矿山信息化建设发展的主要方向受到高度重视,然而矿山物联网背景下海量信息的获取受制于井下的特殊环境以及从源端到井下环网间的线路带
纳米金刚石的可分散性和抗氧化能力的好坏直接影响着超精磨陶瓷结合剂纳米金刚石磨具的性能。本实验综合利用二氧化硅包覆法和高分子网络凝胶法(P-G法)来提高纳米金刚石的可分
现有公路的破坏形式中,车辙占到很大比例,根据车辙的破坏程度的大小采用不同的方式进行修复,能使有限的养护资金得到最佳的应用。本文主要针对路面车辙破坏中为(15-25mm)不宜采
工程项目设计管理是工程项目全过程管理中的重要内容.本文从工程项目设计管理的方案阶段、施工图阶段和使用阶段来阐述如何搞好工程项目的设计管理工作,为具体的工程项目设计
本文主要阐述了功能化水热炭材料的制备及应用。通过水热法,在温和的条件下(180C)制备出具有规则孔结构的多孔炭材料,并通过一系列实验对材料的物理化学性质进行了详细的研究。
冲头润滑与冷却是压铸生产中的重要环节,高真空压铸时冲头/压室间的密封与模具型腔真空度直接相关。目前冲头主要采用冲头油及颗粒珠润滑,容易产生烟气,影响铸件质量,污染环境。
运动疗法具有方便经济、适应面广、场地设备要求低、长期坚持无副作用等优势。近年来,有关运动疗法对原发性高血压影响的临床研究越来越多,其疗效也逐渐被国内外所认可。最近