基于邻域一致性的高维小样本特征选择算法研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:liangzi_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的蓬勃发展,面向语义分析、图像识别和基因选择的应用得到广泛普及,这些领域的数据呈现出高维小样本特点,即特征空间高维度,而样本数量过少。高维小样本数据存在着特征维数与样本数量不协调和类别分布偏斜等问题,作为应用驱动的本质特征,面向高维小样本的分类学习面临着计算低效、预测精度不高、无法识别小类样本,以及模型过拟合、稳定性欠佳、存储开销大等诸多挑战。为了充分挖掘高维小样本数据的应用价值,基于高维小样本数据的知识发现成为备受关注的研究热点。特征选择通过删除数据特征空间中与标记无关的特征、噪声特征或冗余特征,以此来对数据的特征空间进行降维。本文以高维小样本数据为研究对象,围绕高维小样本数据特征选择存在的挑战性问题,重点关注真实场景中不同的应用需求,展开对监督学习模式下的高维小样本数据特征选择算法的研究。主要研究内容包括:(1)针对由特征高维性与样本数量不协调带来的问题,提出基于子空间学习的高维小样本数据特征选择算法。首先,利用特征扰动策略,定义基准特征和基准特征空间,构建具有差异性的多个特征子空间。其次,提出基于子空间学习的高维小样本数据特征选择算法。最后,选取八个数据集与七个算法进行对比分析,实验结果表明所提算法的有效性。(2)针对由类别分布失衡带来的问题,提出利用一致性分析的高维类别不平衡数据特征选择算法。首先,通过融合类别信息来定义样本分布与标记的一致性。其次,设计基于特征重要度的前向贪婪搜索特征选择算法。最后,在十二个数据集上与七个特征选择算法的实验对比分析结果表明,该算法能显著提高小类预测精度。
其他文献
辽东黄花甸地区出露有一套古元古代中酸性火山岩和角闪岩相变质基性岩石称为南辽河群里尔峪组,由于缺乏系统的岩相学、年代学和地球化学等研究,严重制约了对其沉积环境和地质
煤炭井下工作环境恶劣,部署高效的应急通信系统对于保障矿山安全生产有着不可替代的作用。随着采煤工作面的动态推进,传统矿井应急通信系统中有线通信线路难以及时铺设,且极
钙钛矿材料是一种新型的半导体材料,因为其具有较小的激子结合能,较高的吸收系数以及较长的载流子扩散长度等优点,能够在制备光伏器件和光电探测器件等方面具有良好的效果,是
云际计算环境中,数据交易面临着数据资源的价值易流失、操作难追溯和质量难保证的问题。然而,基于区块链的分布记账技术具有防篡改、可审计和可追溯的特点,可被引入云际计算
短波信道是一种不稳定且具有时变性的变参数信道,主要由电离层的时变特性所决定,存在着多径干扰、频率选择性衰落、时间选择性衰落、多普勒效应等复杂信道因素,因此短波通信
近年来随着机器学习与人工智能的迅猛发展,知识发现与智能计算已渗透到现代社会的各个领域。但日益增长的具有不确定、不完备性的复杂数据为人们解决数据分析处理和挖掘决策
原子转移自由基聚合(ATRP)作为一项可控/活性的自由基聚合技术,由于聚合过程不经历链终止和/或链转移,因此常采用ATRP方法制备具有可控分子量的线性聚合物链/刷,从而使分子量
微波光子混频技术利用光子学方法对信号进行变频处理,系统体积小、重量轻、抗电磁干扰能力突出,为传统电学器件的“电子瓶颈”问题开辟出新的解决方案。目前的通信系统要求收
体绘制技术是一种可以较为全面展示信息的可视化方法,被广泛用于科学计算领域展示数据内容。然而,目前体绘制技术中设计传输函数这一过程还存在不直观、繁琐的问题,设计效率
放疗中使用影像引导放疗(Image-guided Radiotherapy,IGRT)可在一定程度上提高放疗质量,但是现有的影像引导技术都存在着一定的缺陷,或增加患者X光的受照剂量,或无法直接、实