属性选择鲁棒性研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:zhaoxiufen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据信息化的日益发展,人工地从数据中筛选出需求的信息已经变得十分困难,为此研究者以统计学思想为基础提出了机器学习方法,而其中分类、聚类和回归分析等知识发现方法更是获得了较为广泛的应用。但原始数据中可能存在的冗余及偏差信息会导致知识发现算法难以获得预期的结果,因此预先对数据进行必要的处理在机器学习领域的研究中同样十分重要。以属性选择算法为代表的数据预处理技术被提出用来从从原始数据中提取出更加重要及“纯净”的信息。基于训练方式的不同,传统的属性选择方法可以被分为三类,即过滤式、包裹式及嵌入式。由于嵌入式方法将属性选择过程与训练过程融为一体,因而可以在优化过程中实现自动选择属性的效果,已经被研究证明优于过滤式方法和包裹式方法。然而,传统的属性选择方法虽然能够在一定程度上降低原始数据的维度并提升后续知识发现模型的学习效率,但仍然难以满足现阶段数据尺寸高速膨胀的状况。这是由于处理高维数据的困难不仅仅只源于数据中样本的数量及维度的增长,而是应对伴随着增长而带来的大量冗余、噪音以及离群点等难题。因此,本文以传统嵌入式属性选择模型为基础结合自步学习、低秩学习及谱图学习理论提出三种更加鲁棒的属性选择算法来应对高维数据存在的不同问题。论文的主体内容分为如下部分:(1)基于自步学习的无监督属性选择算法(UFSSPL算法)。UFSSPL算法将结合自步学习、稀疏学习和属性自表达技术,提出了一种无监督属性约简模型。此算法利用属性自表达实现无监督学习并使用自步学习解决传统属性选择算法忽略样本之间的差异性从而导致模型易受离群点干扰的问题。具体地,UFSSPL首先自动选取一个重要的样本子集训练得到属性选择的鲁棒初始模型,然后逐步自动引入次要样本提升模型的泛化能力,最终获得一个同时具有鲁棒性和泛化性的属性选择模型。通过聚类实验评测,UFSSPL算法在真实数据集上相较其他属性选择算法具有更好的效果。(2)属性自表达的低秩无监督属性选择算法(LFSR算法)。LFSR算法将结合低秩学习、谱图学习、属性自表达及稀疏学习技术,提出一种鲁棒的低秩谱属性选择模型。此算法结合低秩学习与谱图学习技术处理传统无监督属性约简方法难以深入探索数据内在结构(即全局结构和局部结构)从而导致属性选择效果有限的问题。具体来说,LFSR算法首先用一个属性自表达损失函数加上一个稀疏正则化(?2,1-范数)实现无监督学习与属性选择,然后使用低秩学习和谱图学习同时考虑数据的全局结构和局部结构来降低冗余与噪音的影响。经聚类实验验证,该算法较对比算法能取得更好的效果。(3)基于动态谱图学习的谱属性选择算法(DGSFS算法)。DGSFS算法将动态谱图学习、稀疏学习融入到回归模型中,提出一种鲁棒的动态谱属性选择模型。此算法针对传统谱属性选择方法中从原始数据构造的谱图矩阵容易受到原始特征空间的冗余及噪音影响的问题。具体地,DGSFS算法首先利用有监督回归模型与组稀疏?2,1范数实现属性选择基本功能框架,并在已建立的框架中添加谱图学习理论动态地从原始数据的低维子空间中挖掘数据内在局部结构并实现一步属性选择策略。经过分类实验验证,该算法获得了更好的属性选择效果。本论文针对传统属性选择模型存在的不足对属性选择进行鲁棒性改进研究,并通过分类或聚类算法作为实验的评测途径使用不同评价指标对结果进行分析。同时,为验证提出算法的正确性,论文中所有算法均严格按照统一实验环境进行验证和分析。实验结果显示本文论文提出的新算法在各项指标均优于选取的对比算法。在未来的工作中,本人将考虑把这些技术直接应用到聚类、分类或回归算法中。
其他文献
近年来,随着我国电力需求的日益增加以及可再生能源的大规模接入,以风电为代表的新能源发电、高压直流(high voltage direct currents,HVDC)输电技术得以快速发展。然而大规
本研究通过问卷调查的方式,对河南省北部主要小麦-玉米复种高产区(安阳、鹤壁、新乡、焦作)粮食生产过程中肥料、灌溉和用药投入的基础数据进行收集调查,通过处理分析,在保证粮
脊椎动物中,白细胞介素10(IL-10)是一种抗炎因子,在广泛的免疫反应中起抑制作用。白介素1受体相关激酶1(IRAK1)参与IL-1R/TLR炎症信号的转导,在调节机体的自身免疫过程有重要
随着社会的发展,人们对通信系统传输数据的速率和稳定性也有了更高的要求。毫米波由于能够提供丰富的频谱资源而受到广泛关注,但是其物理特性决定了它需要与MIMO(多输入多输
电子书解析及排版技术是指根据相应的电子书格式,按照一定的规则对电子书内容进行解析和排版的技术,是电子书阅读器研究和开发的关键技术。目前常见的电子书格式有TXT、PDF、
目的:本研究通过分析长链非编码RNA Linc01021和微小RNA miR-576/miR425在大肠癌与癌旁正常粘膜组织中的表达差异及它们之间的相关性,研究了Linc01021和miR-576/miR-425表达
目的研究以PLGA-PDPA纳米粒作为光热转化材料,利用剪切波弹性成像监控肝组织的光热消融治疗,以探索新的肝脏光热消融治疗实时监控方法。方法利用双乳化法制作PLGA微球,在碱性
断奶仔猪腹泻(Post-weaning diarrhoea,PWD)是影响仔猪生产效益的主要因素,蛋白质是仔猪生长的必需营养物质,可通过结肠发酵、过敏反应等引发仔猪腹泻。而结肠作为吸收水分的
目的:越来越多的证据支持长链非编码RNA ZFAS1(LncRNA ZFAS1)可作为蛋白调节剂介导多种癌症的发生发展,然而其在结直肠癌中的生物学功能与分子调控机制尚不完全清楚,因此,挖
目的:探究金雀异黄素(genistein,GEN)对脂多糖(lipopolysaccharides,LPS)活化的巨噬细胞凋亡的影响及是否与调节TIPE2/Akt通路有关。方法:1.将1 000 ng·mL-1LPS作用于RAW264.7细