基于自编码器的结构保持无监督特征选择方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:good2009good
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和大数据在各个领域的迅速发展,互联网中的数据量也在呈指数增长,这些海量高维数据对传统的机器学习与统计分析理论提出了严峻的挑战。原始高维数据的特征空间中通常含有许多冗余特征、背景噪声、异常信息以及无关信息,如果不对数据进行预处理,利用高维数据进行机器学习会严重的增加时间和空间复杂度,甚至遭遇“维度灾难”与“过拟合”问题,使得机器学习任务无法完成。因此,特征选择受到越来越多研究人员和工程师的关注,已经成为机器学习领域的热点研究方向。本文详细介绍了基于深度学习框架下的无监督特征选择算法的研究现状,剖析了不同类型的基于深度学习无监督特征选择算法的优缺点,并针对这些优缺点,本文提出了两种新的无监督特征选择方法,具体工作如下。(1)本文提出了基于自编码器和流形正则的结构保持无监督特征选择算法,所提算法根据单个特征对重构原始空间以及重建其他特征的贡献程度选择出最优特征子集,利用L2/1正则对权重矩阵进行惩罚,使其更加具有稀疏性,引入流形正则化挖掘数据空间的局部与非局部几何结构,使模型从原始数据分布中学习到关键信息,最终构造一个新的目标函数,再利用梯度下降算法对所提目标函数进行优化得到最优参数解,最终根据权重矩阵求得最优特征子集。在六个公开数据集上的实验结果验证了所提出的方法相对于其他无监督特征选择能够显著提高分类准确率和聚类准确率。(2)本文提出了基于自编码器和自适应动态图的无监督特征选择算法。为了避免提前预定义的图矩阵,克服模型对固定相似性的依赖,引入自适应动态图学习,将图构造和特征学习统一到一个优化过程中。构建结构保持图正则,引入流形正则保持原始数据空间的局部和非局部几何结构,最终构造一个新的目标函数。利用迭代优化算法,对所提出的新目标函数进行优化得到最优参数解,最终根据权重矩阵求得最优特征子集。在六个公开数据集上的实验结果验证了所提出的方法相对于基于图自编码器的无监督特征选择算法能够显著提高分类准确率和聚类准确率。综上,本文提出了两种基于自编码器的结构保持无监督特征选择算法,通过实验结果分析,验证了所提算法能够有效地去除冗余和无关特征,并选择出特征集合中最具有代表性的特征子集,提高后续学习任务的鲁棒性。
其他文献
带式输送机是一种被广泛应用于煤炭、工业生产物流的物料运输设备。由于带式输送机是工业运输的重要设备之一,其实时运行状态能直观影响到整体工业运行效率。带式输送机运行速度是其运行状态的核心参数,在满足工业现场生产要求的前提下对带式输送机速度进行测量具有重要意义。现有工业运输环境下,对带式输送机速度测量方法一般采用传统接触式测速仪,该方法测量精度高且实时性好,但是由于接触式测速仪固有的物理属性,导致在测速
近年来,随着医疗技术的提升以及经济的快速发展,全世界人口老龄化越来越严重,阿尔茨海默症、重度抑郁症等精神系统疾病的发病率也是逐年攀升。而海马体的形态体积与阿尔茨海默症的病因有着密不可分的联系。海马体影响人类的记忆认知等功能,一旦出现问题会给人们的日常生活带来很大的影响。而确诊阿尔茨海默症的第一步就是从磁共振图像中分割出海马体的形态,然后才能进行下一步的分析确诊。目前海马体分割的金标准,仍然是由有经
随着建筑产业结构的不断升级和大数据时代的不断发展,将信息化技术应用到工程造价领域,为改进工程造价计算模型提供新思路和新想法,具有一定意义的研究价值。如何将信息化技术应用于工程造价,快速计算建筑工程造价,提升个人或企业在造价计算上的精确度和效率,需要我们在以往经验的基础上,结合新的技术和方法来深入研究。本文将BIM技术应用到建筑工程造价快速计算方法的研究,首先能够提高建设工程造价计算的效率和准确性;
文字交通标志包含了地点、距离、方向、警告等很多与交通状况有关的语义信息,这些信息给司机和行人提供了重要的道路提示。对文字交通标志的准确检测和包含文本内容的准确识别,不仅能为司机或智能交通系统提供安全的驾驶,还能为司机或智能交通系统提供辅助决策信息,进一步协助解决交通安全驾驶和交通拥堵等问题。本文就文字交通标志的检测和识别问题进行了探索和研究。提出一种基于视频码流的交通标志文字检测方法。该方法充分利
随着煤矿下开采技术的不断发展,矿下也向着机械化、自动化的方向进步。矿用外骨骼机器人的应用,助力矿下工人搬运重物,持风镐进行作业等,这种机构可以大大减少工人的劳动量,提高生产效率。稳定行走是外骨骼机器人研究中的一个关键问题,也是实现其他功能的根本前提。人体在穿戴外骨骼机器人负重作业时,由于井下路面情况复杂,工作环境恶劣,外骨骼人-机系统受力情况也更为复杂多变,使得外骨骼人-机系统的稳定性较难控制,因
肾性血尿是由于肾小球基底膜的滤过屏障被破坏而造成的,其中血尿中尿红细胞的数量和形态对该病的诊断有着重要的价值。在传统医学诊断中,医生通过在光学显微镜下观察血尿中异常红细胞的形态,来完成对肾性血尿的临床鉴别,其诊断灵敏度可达80%。但是,由于尿红细胞的形态小且相似,使得仅通过显微镜对尿红细胞进行人工观察和识别不仅既耗时又耗力,而且依赖于病理医生的专业水平,同时还存在着漏检和误检的问题。为了辅助医生快
计算机和互联网技术的飞速发展,使得信息全球化成为当今世界的一个重要特征,信息安全的重要性日益突出。如何对信息快速、有效的加密,也随之成为当今信息处理的研究热点之一。光学加密技术是近年来发展起来的一门新兴的信息加密技术,因其具有能够高速并行处理图像数据、利用多维度(即多自由度)加密信息等优点,获得了广泛关注。由于散射介质的光散射效应,使入射光波原本有序的光波前发生畸变,通过它的光场变得随机且紊乱。入
随着信息技术的快速发展,数字图像作为一种重要的信息载体被越来越广泛的应用在各个领域中。多媒体数据是在公共信道上传输的,容易受到攻击者的恶意破坏或篡改,改变图像原来的信息,所以,需要在图像传输前完成对图像的加密。随着多媒体数据量的不断变大且网络传输带宽是有限的,使得图像的传输效率大大降低。而减少图像的传输时间,提高传输效率有效的办法是对图像进行压缩。由于压缩是通过利用图像相邻像素的相关性以达到去除冗
随着电子器件逐渐开始流行“智能化”,“小型化”,为了不断适应大数据时代发展的需要,市场对信息存储技术提出了更高的要求。目前,在传统的非易失存储器中,由于闪存在小型化过程中已接近其所能承受的物理极限,因此,研究人员迫切需要寻求更加优异的存储技术来满足时代对存储器的需求。阻变存储器以其高存储密度、低功耗、结构简单、快速读写等优点备受关注。此外,阻变存储器中阻变材料的多元化以及采用简单的“MIM型”架构
煤矿是我国的重要能源之一,采煤机作为煤炭能源开采至关重要的设备,承担着割煤、装煤等任务,但恶劣的工况和高强度、高负荷的工作状态以及滞后的维护措施等因素导致其故障频发,降低设备的工作效率,危害企业、社会乃至国家的生产利益,威胁相关人员的生命安全,故对采煤机进行高效可靠的健康管理势在必行。采煤机摇臂是采煤机的关键执行机构,它的剩余寿命情况与采煤机整机的健康状态息息相关,因此,对采煤机摇臂关键零部件进行