基于自编码器的无监督特征选择方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:wiaini0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对机器学习、数据挖掘中高维数据引起的“维数灾难”问题,特征选择作为一种数据降维技术,可有效地对这些数据进行预处理。近年来,各种类型的高维数据大量产生,无监督特征选择方法由于不需要类别标签,成为机器学习领域中的一个研究热点。论文通过分析目前无监督特征选择算法中存在的许多不足,结合神经网络和局部结构保持算法的优势,提出两种基于自编码器的无监督特征选择算法,具体内容如下:(1)针对目前基于自编码器的无监督特征选择算法忽略局部几何结构重要性的问题,本文提出了基于自编码器和局部线性嵌入的无监督特征选择算法。首先,通过自编码器消除冗余特征,学习特征之间非线性关系,并在输入层到隐藏层的特征权重矩阵上施加L2,1范数,加快特征选择;然后将局部线性嵌入算法中的欧氏距离替换成Dijkstra距离,更好地获得数据点在多维空间下的真实距离,并利用改进后的局部线性嵌入算法在由自编码器训练得到的低维样本表示空间上进行局部几何结构信息的提取;最后设计一个新的目标损失函数,并用L-BFGS算法进行迭代优化,得到一个含有重要的非线性关系信息和局部几何结构信息的特征子集。通过在不同类型数据集上进行聚类和分类实验,结果表明所提出的算法相较于其他无监督特征选择算法能够进一步提高聚类准确率和分类准确率。(2)为了能够在捕捉特征之间非线性关系的同时,保留数据之间和特征之间的局部结构信息,本文提出了基于自编码器和双图正则化的无监督特征选择算法。首先利用自编码器学习特征之间的非线性关系;然后分别从数据级别和特征级别这两个方面构建数据图拉普拉斯和特征图拉普拉斯,学习数据之间和特征之间的局部几何结构信息;随后对模型中的参数集合进行范数约束,防止模型过拟合;接着引入一个辅助函数解决目标函数出现的非凸问题;最后利用梯度下降算法对参数进行迭代优化。在得到优化好的特征权重后,利用评价准则评估特征的重要性,从中选择出含有重要语义信息的特征子集。实验结果表明,基于自编码器和双图正则化的无监督特征选择算法能够在聚类和分类任务中保留特征非线性关系信息和充分的局部结构信息,聚类性能和分类性能要优于所对比的其他无监督特征选择算法。综上所述,本文提出的两种无监督特征选择算法,通过理论分析和实验证明,可以有效地消除原始数据中的冗余和不相关特征,能够充分保留特征非线性关系信息和局部结构信息,得到一个最优特征子集。
其他文献
!抗菌肽(Antimicrobial peptides,AMPs)是自然界中存在的一种可以先天免疫有害微生物的小蛋白分子,其种类和功能多样,可以特定地作用于肿瘤细胞或有害物质。抗癌肽(Anticancer peptides,ACPs)是抗菌肽的一种,其特点是可以选择性杀死肿瘤细胞而对正常细胞损害较小,其作用机制与抑制细胞分裂增殖失常和靶向作用等生物学过程密切相关。抗癌肽由于其正离子性和两亲性,可以
学位
计算机断层扫描(CT)技术是一种被广泛应用于临床,工业和其他领域的成像方法,是现代临床医学影像诊断的常用方法之一。然而,扫描过程中过多的射线辐射会带来潜在的健康风险。一般来说,有两种方法可以减少辐射剂量:降低管电流和减少X射线管的曝光时间,尽管上述两种方法都可以有效地减少辐射剂量,但是会导致重建的CT图像质量较差(如斑点噪声和条纹伪影),影响临床医学诊断的准确性。现有许多用于提高CT图像质量的方法
学位
Web2.0时代,深刻地影响了每一个人的生活,特别是自19年底的新冠疫情开始,互联网的重要性更加凸显。用户在互联网上对生活的分享产生了大量的主观性信息,这些数据数量庞大,并且每天以指数级增长,能否及时高效的获取分析其中的信息是当前的研究热点。受益于国内大环境,我国金融科技的发展遥遥领先世界平均水平,金融科技的快速发展正在淡化传统金融业务边界,防范化解可能带来的金融风险,甚至可能引发的社会风险,防止
学位
在以数据库管理系统(Database Management System,DBMS)为支撑的应用中,查询是最主要的操作,其执行效率决定应用软件的性能。选择合适的执行计划能够有效地提高查询的执行效率。查询优化器选择查询执行计划的流程分为执行计划的生成和选择两个阶段。前者将查询语句转化为关系代数表达式,根据基本表的扫描方式、关系间的连接方法与连接顺序为查询生成执行计划集合,计算开销;后者根据查询涉及的
学位
为研究大型转体承台内部传力机理,本文以武汉跨沪蓉线、麻武线高架转体桥下承台为原型,对十六桩转体承台两种试验模型进行有限元分析。研究结果表明,转体承台底部拉应力主要集中于中间四根桩所构成的矩形区域;非预应力承台在加载过程中,各桩顶反力比例几乎保持不变,桩顶反力未出现重分布;降低桩支承刚度可以降低中间桩的反力,使桩底反力趋于均匀,以提高转体承台的承载性能;施加预应力能显著改善桩顶反力分布,有效降低中间
期刊
拱肋分幅转体能有效解决整体转体时转盘过大、开挖方量大的问题,相较于双拱肋整体转体,其转动体系相对较柔,施工过程中体系的抗风性能需重点关注。为合理评估施工过程中的风致振动效应,对比介绍了基于时间历程的动力分析方法和基于规范层面的等效静态分析方法的计算过程及其软件实现细节,讨论了2种方法计算结果的差异性和规律性。结果表明:该转体桥例尽管静力荷载数值总体上要大于动力的情况,但静力分析方法仍低估了风致作用
期刊
球铰作为桥梁转体系统的关键承力构件,其受力特性对桥梁转体安全至关重要。该文以跨襄阳北编组站大桥为对象,开展多点支撑转体系统球铰受力特性模型试验,详细分析承力支腿数量、桥梁转动速度、轨道平顺性和风荷载对球铰应力的影响,探讨不同工况下球铰应力的变化规律。试验结果表明:增加承力支腿数量可以使上、下球铰受力更为均匀;在转动加速阶段,球铰受加速度效应影响显著,在匀速转动阶段,上球铰的应力变化随着转体角度的增
期刊
某T型刚构桥采用支架法分段现浇,并在落架后进行平面转体,此种施工方法桥梁直接由支架支撑状态转为最大悬臂状态,靠近悬臂中墩位置处的梁体应力会在短时间内急剧增大,且在转体过程中梁体振动会加剧梁内应力,对桥梁施工安全造成不利影响。因此,在中墩两侧主梁断面安装应变计,对转体前主要测点各施工阶段的应变与应力进行记录和分析,在悬臂端部布置振动传感器,对转体过程进行模态分析与振动监测,从而对桥梁施工安全做出判断
期刊
深度估计可以显著地提高各种机器视觉任务的决策能力,对理解和解析现实场景结构具有重要的意义。同时,环境因素是应用研究不能忽略的问题,在雾霾环境中,浑浊的介质使光线发生严重散射,导致雾霾图像对比度降低和色彩失真。图像的全局场景和局部结构都由于雾霾的遮挡而模糊不清,往往存在特征丢失的问题,对雾霾环境下的深度估计研究产生了严重的影响。使用清晰图像训练的深度估计模型难以适用于雾霾图像,无法有效地在雾霾环境下
学位
计算机视觉在人工智能体系中就像我们人类的眼睛一样,把各种生活中的图像数据加以处理使得机器可以像人一样理解处理图像。近年来,随着人工智能和大数据技术的不断成熟以及在各行各业中的使用不断地增多,采集存储的图像数据也不断的增多,图像数据会有不同程度的缺损破坏,因此图像修复在图形图像学和计算机视觉中是一个比较受关注的课题。图像修复的难点在于破损的部分信息未知,封闭未知的部分的信息丢失。学习破损周边部分信息
学位