基于BDE-MICI的无监督特征选择的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:bibby_514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,很多高维度和没有标签的数据已经大量出现在如今的现实生活中,比如医疗、金融等领域产生的数据。人们在处理这些数据的时候,发现并不是所有的特征都是必要的。对于大数据集来说,我们会发现一些特征是冗余的特征或者与其它特征是高度相关的。所以,我们对数据进行预处理时,往往会去除这些冗余的特征和嘈杂的特征,这对后面的进一步学习是不可缺少的。基于原始集的样本有没有类别标签,特征选择不妨被划分成监督的和无监督的这两类方法。然而在现实中的数据多半是没有带有类别标签的。无监督特征选择算法的研究和应用成为了如今的一个热点研究问题,在对无标签数据的处理上体现了它无法代替的重要位置。本文对无监督特征选择问题进行了研究和分析。本文利用二进制微分进化算法和最大信息压缩指数的原理,提出了一种基于二进制微分进化与最大信息压缩指数的无监督特征选择算法。该算法利用最大信息压缩指数的性质所构造的适应函数作为候选子集的评价准则,该适应函数在特征选择中用于减少冗余性特征和不相关性特征。通过对现有微分进化算法的对比与分析,将实数编码方式改为0-1编码方式,使得二进制微分进化算法既具有微分进化的优化速度,又在特征选择上操作简单。我们在二进制微分进化中引入了自调节变异算子,避免了早熟现象,增加了搜索到全局最佳解的概率。通过在七个不同类型的数据集进行性能比较分析,得出的结果证明所改进的算法优于其他现有的四种无监督特征选择算法以及GA-MICI算法。
其他文献
心理应激是指当个体面临社会心理挑战或威胁时,会产生一系列生理、心理和行为上的适应性反应,以应对内、外部挑战并维持机体内稳态的过程。然而,研究发现,个体的应激反应会受
昆虫缺乏适应性免疫系统,完全依靠先天免疫来抵抗病原物的入侵。当病原物入侵昆虫时,昆虫通过模式识别受体(Pattern recognition receptors,PRRs)识别并结合病原物表面高度保
胰岛素样生长因子-1(Insulin-Like Growth Factor-1,IGF-1),是由70个氨基酸残基构成的单链多肽,作为一种主要由肝脏细胞合成和分泌的重要生长刺激因子,在人体多种细胞中广泛
金属-有机骨架(MOFs)是一类由金属中心离子与有机配体配位自组装而成的新型材料,在对金属有机框架的研究进程中,MOFs的稳定性一直都是困扰科学家们的问题。本文基于对MOFs的
随着科技的日新月异,信息技术的快速发展,图书为人类获取知识提供了便利的途径。图书中含有大量权威的、有价值的信息。在工程科技领域,图书成为人们获取知识,提升专业能力的
聚类是研究数据相似性的一种方法,它被广泛应用于统计学、气象学、医学等诸多科学领域.本文从提升预测能力的角度出发研究了聚类算法,并提出了增强收缩K-means算法,它是基于James-Stein收缩估计和学习向量量化(LVQ)方法的一种新的聚类方法.这种新算法主要考虑了无监督聚类和监督分类的优点,在每次迭代中,首先使用K-means算法为每个数据点获取一个临时标签,对于这些有标签数据,利用LVQ算法
自上世纪八十年代开始,各国货币政策调控方式逐渐由数量型向价格型转变。“利率走廊”正是在这一转变过程中的兴起的新型货币政策调控方式,其具备的调控短期利率,降低利率波
全球气候变暖是人类面临的重要环境问题,它与人类活动大量排放温室气体有关。夜间增温幅度大于白天是气候变暖的显著特征,夜间增温既影响作物生长和产量,也会影响农田温室气
棉花是重要经济作物。研究表明,棉花植株和棉纤维生长发育受到植物激素乙烯调节,乙烯生物合成的前体物质是1-氨基-环丙烷羧酸(1-aminocyclopropane-1-carboxylic acid,ACC)。
覆盖区找矿是目前资源勘查领域的重点与难点,覆盖层的屏蔽作用使深部成矿信息发生削弱和衰减,其对地表地球化学异常的形成和影响尚缺乏系统的研究,成为制约覆盖区找矿实现突