高维数据的特征选择及基于特征选择的集成学习研究

被引量 : 0次 | 上传用户:HJ565dgdgd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像处理、信息检索以及生物信息学等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要适应大规模数据集的准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。本文在高维数据的特征选择以及基于特征选择的集成学习上开展了研究。主要工作包括以下方面:一、设计了两种串联型组合式特征选择算法。针对Relief评估不能去除冗余特征的缺点,设计了两种串联型组合式特征选择算法:一种为Filter-Filter模式,另一种为Filter-Wrapper模式。在人工数据集上的实验表明,Filter-Filter模式的组合式算法可以有效的克服Relief不能去除冗余特征的缺点,去掉全部或者近似全部的冗余特征,且运行效率高于Filter-Wrapper模式的组合算法;在人工数据集和实际数据集上的实验表明,Filter-Wrapper模式的组合式算法取得了明显高于Filter-Filter模式的测试准确率。二、基于Relief和遗传算法各自的优缺点,提出了Relief和遗传算法耦合的组合式特征选择算法。算法采用 Relief 指导遗传算法种群初始化,目的是提高遗传算法搜索近似最优解的速度,以便在较短时间内寻找到近似最优解。在17个维数较高的数据集上的实验结果表明,从分类准确率,特征子集大小以及运行时间等多角度考察,该算法具有良好的综合性能。三、从个体分类器准确率和个体分类器间差异度两方面出发,提出了一种适于高维数据的基于两步式特征选择的集成学习算法ReFeatEn。实验表明,在特征维数较高,特征间关系较复杂的数据集上,ReFeatEn算法的测试准确率始终优于或相当于Bagging、Boosting和基于随机特征选择的集成学习算法RandFeatEn,并且ReFeatEn的运行速度远高于Bagging和Boosting算法,而且适于并行运行,是一种适用于高维数据的基于特征选择的集成学习算法。四、提出了将特征选择嵌入到Boosting算法中的思路,并设计了总体算法框架,据此分别针对朴素贝叶斯分类器和最近邻中心分类器设计了相应的集成学习算法,解决了Boosting算法对噪声特征较敏感的缺陷,得到的测试准确率显著高于对应的Boosting算法,是一种鲁棒性很强且具有推广性的集成学习算法。
其他文献
中国古代女性文学虽然起源甚早,但直到明万历以后才出现繁荣局面。明末女性文学主要由两方面构成,一方面是妓女文学,另一方面是闺秀文学。妓女文学集中国妓女文学之大成达到鼎盛
失眠的发生多因脾胃为患.<素问&#183;逆调论>云:"胃不和则卧不安","阳明者,胃脉也,胃者六腑之海,其气亦下行,阳明逆,不得从其道,故不得卧也".清代张璐在<张氏医通&#183;不得
分布式拒绝服务攻击DDoS是互联网环境下最具有破坏力的一种攻击方式。它利用TCP/IP协议的缺陷和网络带宽资源的有限性,向被攻击方恶意发送许多连接请求或无用的数据包,从而大
研究无创功能医学检测手段对高血糖症的诊断价值。使用基于电阻抗成像技术的无创功能医学检测系统对清华大学退休教职工进行高血糖症健康风险筛查,比较无创功能医学检测系统
人力资源战略管理是现代人力资源管理理论和应用的重要课题。电力行业特别是带有自然垄断性质的供电企业,是否需要做人力资源战略,以及如何进行人力资源战略规划和实施,仍然是实
核黄素是生物体不可缺少的 B 族维生素,目前我国只有湖北广济药业股份有限公司和上海迪赛诺维生素有限公司生产核黄素。为了使其产品与巴斯夫、罗氏等国际维生素巨头相比更具
目的:通过临床检测治疗前后肾阳虚及肾阴阳俱虚型绝经综合征(MPS)患者血清雌二醇(E2)、卵泡刺激素(FSH)、黄体生成素(LH)水平,探讨自拟更年汤对性激素的影响。并在此基础上构
目的探讨现代化多媒体手段和体位图片技术在术前访视中的应用对患者心理的影响。方法将400例择期手术患者随机分为观察组和对照组,单数纳入观察组,双数纳入对照组。观察组采
岭南文化受特殊的气候、地理位置、外来文化的影响,充分体现多种文化交织碰撞而形成的独特的。岭南建筑具有顺应自然规律和以人为本的设计意念。文章从现代岭南建筑、园林、
目的:本次实验在前期实验研究的基础上,将高脂饮食诱导的胰岛素抵抗模型大鼠进行电针干预治疗,观察主动脉内皮细胞JNK蛋白的变化,探究并完善电针改善胰岛素抵抗状态的内在机