最大相关最小冗余的无监督特征选择算法的研究及其应用

被引量 : 0次 | 上传用户:cheng2008YING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现实世界很多无标签和高维度数据集的广泛出现,如文本、图像和基因数据等,无监督特征选择方法的研究和应用成为了当前的一个研究热点,在对无标签数据集的处理上体现了它难以替代的重要地位。本文对无监督特征选择展开初步的研究和探讨,并对过滤式无监督特征选择进行深入的研究。过滤式特征选择的挑战在于如何定义不相关和冗余特征[1],从过滤式无监督特征选择的这两个挑战和研究现状来看,其存在的不足之处是:(1)对冗余特征的定义,从特征归约和特征聚类角度考虑。而特征归约的方法(PCA、ICA)得到的是特征的转换,无法得到原始的特征子集,可解读性不强;对特征用k均值进行相似性聚类,k值的不确定性和聚类算法的不稳定性给冗余特征的删除带来困难。(2)只从去除不相关或冗余特征的角度进行过滤式特征选择,使得到的特征子集不满足最大相关和最小冗余的要求,而不相关和冗余特征往往会降低聚类的性能。因此,本文针对过滤式无监督特征选择的以上不足,借鉴有监督学习中删除冗余特征的思想和集成聚类思想,从统计学和集成聚类两个角度,研究无监督特征选择中删除冗余特征的方法。并将这两个删除冗余特征的方法与只考虑相关特征重要性排序的拉普拉斯算法相结合,设计出两个同时考虑不相关和冗余特征删除的最大相关和最小冗余的无监督特征选择算法LS-CORR (Laplasian Score and Correlation)和LS-EC(Laplasican Score and Ensemble Clustering)。在标准UCI数据集和人工数据集上,本文对LS-CORR和LS-EC算法分别进行了实验。实验结果表明这两个算法都能较好地处理无关和冗余特征较多的数据,得到维度较小的特征子集,且提高了数据集的聚类准确性。LS-CORR算法与LS-EC算法相比,LS-CORR算法删除冗余特征过程较简单,根据特征间的相关程度能快速地删除冗余特征;LS-EC算法通过聚类结果从簇与特征和特征与特征间的相关和冗余来综合考虑噪声特征的删除,得到了更小更优的特征子集。但LS-EC算法在集成聚类上降低了算法的效率,适合样本规模较少的数据。而后,本文将拉普拉斯和LS-CORR无监督特征选择算法应用于烟叶致香成分分析中,从烟叶致香成分数据的本质属性和分布分析其关键致香成分。并通过实验,与现有方法对比,说明这两种无监督特征选择算法应用于烤烟烟叶致香成分研究中的有效性、实用性和现实指导意义。本文最后对研究工作进行了总结,并指出了今后进一步的研究方向。
其他文献
我国经济的迅猛发展带动了第三方物流企业的繁荣,第三方物流不仅可以降低社会物流成本、提高我国企业在新经济条件下的竞争力,而且在提高国民经济总体品质和抵抗危机的能力方
随着丛式钻井技术的发展,特别是近年来海上石油勘探过程中高密度加密井项目的陆续展开,钻头与成井相碰的事件时有发生,而一旦碰撞打穿成井就会造成数百万元的经济损失。渤海
莱芜分公司炼铁厂4^#265m^2烧结机投产于2005年,烧结矿占高炉炉料结构70%~80%,近几年高炉产能不断提升,为了满足高炉生产需求,4^#265m^2烧结机通过一系列的设备改造、工艺改进,使烧结
本文主要探究在当今美国中小学校园开展的研究性学习的模式及其内涵与特征 ,旨在为国内中小学的实践提供参考与借鉴
<正>在以电视为主体的电子媒介普及的今天,电视已成为家庭环境必不可少的组成部分,成为当代社会文化的重要支柱。1992年到1993年的全国城市儿童媒介接触调查研究发现,电视是
韩国山水游记的创作始于高丽中叶 ,至朝鲜时代出现大量可以与中国相媲美的作品。朝鲜前期的山水游记主要受中国宋代山水游记与高丽末期李谷的《东游记》及安轴的《关东瓦注》
生态农业是农业发展的方向,是实施科学发展观,推进经济、社会和环境协调、可持续发展的需要,同时对农村培育优质资源,开拓新的市场,发挥后发优势,实现跨越式发展,迅速提升综
我国大气NOx污染问题呈现出日益加剧的趋势,研究开发经济、高效的烟气脱硝技术显得十分必要和紧迫。本文针对液相氧化和气相氧化脱硝技术进行了系统研究,进一步明确了反应机
针对高压电网接引线机械臂绕线和进给过程中,其步进电机存在速度突变和宽广范围内速度平滑控制问题,设计了以STM32F103系列微控制器为核心的运动控制系统,该系统采用自适应细
智能化、网络化是自动化仪表的发展趋势,数据采集技术是智能仪表完成过程参数控制、监测等诸多功能的基础。应用计算机控制技术、现场总线技术及通讯技术,研究了基于CAN总线