【摘 要】
:
在大数据时代,数据量增多的同时,数据的维度也在不断的增长。高维数据使得数据挖掘模型的构建以及挖掘算法的运行效率大大降低,同时众多噪声和野值数据也会影响算法运行的结果,导
论文部分内容阅读
在大数据时代,数据量增多的同时,数据的维度也在不断的增长。高维数据使得数据挖掘模型的构建以及挖掘算法的运行效率大大降低,同时众多噪声和野值数据也会影响算法运行的结果,导致模型的低效率、过拟合以及预测能力低下等问题。为了应对高维数据带来的挑战,并有效处理噪声和野值,本文通过对降维方式和鲁棒学习结构进行研究,提出了一种新的鲁棒特征选择算法,主要工作为以下三个方面: (1)分析研究了降维方式和鲁棒学习结构。通过对数据挖掘过程中几种降维方法进行研究比对,将研究重点聚焦于嵌入类特征选择方法。同时,针对噪声和野值对算法的影响,提出了具有高度鲁棒性和稀疏性的维度缩减方法。 (2)通过基于最优化capped??2范数损失函数与?2,p范数正则项的连接,提出了新的鲁棒特征选择算法SCM(SimultaneousCapped?2-Normand?2,p-NormMinimizationforRobustFeatureSelection)。这其中,capped??2范数损失函数对噪声和野值都具有很强的鲁棒性,?2,p范数正则项可以提供有效的稀疏性,因此算法在特征选择工作中可以有优异的表现。通过对SCM算法模型的研究,提出了一个有效的求解方法,进而确定SCM的算法步骤。随后,对算法收敛性进行了严格的证明并对算法的参数确定和评估进行了有效的分析。 (3)通过对SCM算法进行现实数据集的实验对算法性能进行了详尽的探究。提出了一个2D的仿真模拟实验,用于证明capped??2范数的鲁棒性要优于?2,p范数,从而对SCM算法的鲁棒性加以有效验证;利用特征选择领域常用的不同类别的经典现实数据集对SCM算法进行评估,通过与其他五种经典特征选择算法的横向比较,以及不同度量指标的纵向比较,用以证明SCM算法在现实数据集中的优异表现;研究算法的收敛过程,从实验验证角度对算法收敛性进行证明;对算法参数进行评估,证明了算法参数的影响性和稳定性。
其他文献
我国年产原煤40亿吨左右,约18亿吨进入洗选,选煤作为煤炭产品增值、降低污染、实现绿色的主要环节对于煤炭行业至关重要。目前世界上采用较多的选煤工艺为重介质选煤,我国90%以
学习是一种个性化行为。作为教师,应当在课堂教学中营造有利于张扬学生个性的氛围,让学生的个性在宽松、自然、愉悦的气氛中得到张扬。因此课堂气氛是激发学生学习兴趣的关键所
粗糙集理论是20世纪80年代初由波兰数学家Z.Pawlak[9]首先提出的处理不确定性知识的数学理论,它的主要思想就是利用已知的知识库,将不精确或不确定的知识用已知的知识库来近似
X公司成立于2009年,是以研发、生产洗衣机减震器及其零部件于一体的高新科技企业。该公司生产的2327型减震器与国内外同类产品相比具有明显的技术与成本优势,市场前景广阔。该
近年来,多电及全电飞机发展迅速,使得航空电源系统在功率水平、电能品质及可靠性等方面的要求越来越高,内置式整体起动发电系统则日益成为多电航空系统中的研究热点。起动发
根据农业农村部科技教育司农科(产业)函[2019]第270号文件要求,国家蚕桑产业技术体系(以下简称蚕桑体系)于2019年12月23日-27日在广西壮族自治区南宁市召开了2019年度蚕桑体
近年来,混沌预测作为一个新的研究方向,正在预测理论科学中形成巨大的影响。在本论文中,作者尝试将混沌预测应用于水文中的径流、负荷预测,利用相空间重构得到混沌系统的预测
开关磁阻电机(SRM,Switched Reluctance Motor)是一种新型的机电一体化的调速系统,其由双凸极的磁阻电机、控制电路、功率开关电路以及检测系统组成,具有结构简单、运行可靠、控制方式灵活、制造费用低、可以在恶劣的环境下工作等优点。此外,它还具有良好的调速性能以及强大的容错能力,其应用前景十分广阔。然而位置传感器的引入,使得电机的运行环境受到了限制,电机制造费用增加,并且增大了电
自人工神经网络提出以来,因其在联想记忆和优化运算中的巨大应用,神经网络稳定性分析成为神经网络研究领域内的一个重要分支.该文在对国内外关于神经网络稳定性研究现状及发
本文首先剖析了传统数据交换的弱点,具体地阐述了XML的产生和发展历程,在此基础上,探讨了XML/EDI的相关知识,并且对传统EDI和XML/EDI做了对比分析。 由于XML文档属于