基于F-邻域粗糙集的特征选择

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:czyangcdut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代下,在生产实践中获取的属性越来越多。一部分属性可能是冗余的或与分类任务无关,在进一步数据处理之前需要将它们删除。特征选择(也称为属性约简)是一种用于减少特征的技术,其目的是找到最佳特征子集来预测样本类别。无论是单标签数据还是多标签数据,特征选择过程中都存在一个关键问题:特征评估。对于多标签数据,已有的工作往往对标签之间的关系考虑不够,直接影响了多标签特征选择的性能和多标签学习的效果。针对以上问题,本文结合邻域粗糙集和F-粗糙集的优势,提出了一种新的粗糙集模型——F-邻域粗糙集,并利用F-邻域粗糙集进行单标签特征选择和多标签特征选择。主要研究内容如下:首先,结合邻域粗糙集和F-粗糙集的优势,提出了F-邻域粗糙集。定义了F-邻域粗糙集的邻域关系,使用邻域决策子系统来表示不同情况,并讨论了其性质。同时以F-属性依赖度和属性重要度矩阵进行特征评估,并根据两种评估标准设计了两个特征选择算法。与近年来的算法对比,实验结果表明本文的算法具有较大的优势。其次,将F-邻域粗糙集模型从单标签学习扩展至多标签学习。F-邻域粗糙集把多标签数据分解成多个单标签决策表。然后用多个单标签决策表的属性依赖度进行信息融合,并充分考虑了多个标签之间的关系。用多个单标签决策表的属性依赖度和基于属性重要度矩阵进行多标签特征选择。与近年来的算法对比,实验结果表明,该算法在文本和图像多标签学习任务中都存在较大的优势。本文的主要创新点如下:(1)提出了F-邻域粗糙集模型。该模型同时具有邻域粗糙集和F-粗糙集的优势。(2)提出了基于属性重要性矩阵的特征选择算法(NPRMS)。该算法不仅适用于离散数据,而且适用于连续数据,不仅适用于静态数据而且适用于动态数据,具有很好的鲁棒性。(3)在多标签数据学习下,提出了基于属性重要性矩阵的特征选择算法(FNPRMS)。该算法继承了NPRMS算法的优势,并且充分考虑了多标签之间的关系,不需要进行空间转换,具有很好的可理解性。
其他文献
上地壳岩石普遍为含有一定孔隙度的复杂孔隙结构,孔隙填充物可由粘土、油、气、水等成份组成,这种不均匀异质性特征使关于地震波在地下介质中传播问题的研究更为复杂。在力源
知识图谱问答任务是指以知识图谱作为答案信息来源的自动问答任务。借助知识图谱问答模型,用户通过自然语言问句描述其信息需求,就可以从知识图谱中获取正确答案。因此知识图
如何快速高效地获得高精度三维电磁模拟结果一直是三维电磁正演研究的重点。为进一步提高数值模拟的精度和稳定性,本文将基于Gauss-LobattoChebyshev(GLC)多项式的谱元法引入
伊春市大石沟-汤原县兴林林场一带位于丰茂—亚布力地槽褶皱带,属东风山群受变质沉积铁、金(钴)矿床成矿亚带。目前于区已发现多处金属、非金属矿床、矿化点及矿化信息地,其
本研究分别采用了紫外线诱变、硫酸二乙酯诱变以及两者复合诱变法对产糖化酶黑曲霉进行了诱变处理,以期获得产糖化酶酶活力高的优良菌株。经过初筛和复筛,得到6株糖化酶活力
生产现场管理优化是制造型企业生产过程持续改进的一个重要方法。通过对生产现场的优化,可以使企业大幅度的提高生产效率、降低成本、减小劳动强度、提高产能,最终提高企业对
研究区位于内蒙古自治区兴安盟地区,隶属华北板块之宝音图-锡林浩特火山型被动陆缘——乌兰浩特-林西晚古生代裂谷带,处于新华夏构造体系大兴安岭隆起带的东缘,以嫩江断裂为
矿工的不安全行为是导致煤矿安全事故发生的最主要原因,因此,从矿工行为出发,对煤矿安全生产进行治理与改善,是解决煤矿安全问题的根本途径之一。随着物联网技术与人工智能的
在“新通道”设计与社会创新项目近十年的发展历程中,影像被赋予为项目传播与交流的重要手段作用,基于项目要求摄制大量极具地域文化特色的影像作品。影像作为记录非遗文化最
棒曲霉素(patulin,PAT)是一种对人类健康造成极大威胁的真菌毒素,普遍存在于水果及其制品中,在苹果及其制品中的污染尤为严重。利用微生物法降解棒曲霉素以其经济、安全、高