基于模糊粗糙集理论的数据分析技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:talentcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从1956年首次提出以来,人工智能经历了若干次低谷和高潮。随着深度学习算法的提出,人工智能在21世纪又迎来了一次发展的高潮。数据作为人工智能研究的基础要素,直接影响了人工智能算法和模型的性能。在业界广泛流传着一种观点:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,为了获得高性能的算法模型,数据和特征是至关重要的因素。本论文以在工业界取得广泛成功应用的模糊粗糙集理论为研究工具,探讨模糊粗糙集在以特征选择、实例选择为代表的数据分析领域的研究价值和学术意义。在机器学习、数据挖掘等应用场景中,往往需要处理海量的高维数据。首先,不是所有的特征对预测目标变量具有同样的作用,数据集中通常存在着冗余和不相关特征。其次,由于人为或其他因素的影响,数据集中包含噪声甚至是错误数据,严重影响下游分类器的性能。因此,有效地识别数据集中的冗余特征和噪声数据,不但可以获得高质量的约简数据集,而且能够减少数据的存储压力和算力浪费,在海量数据场景下也具有积极的现实意义。模糊粗糙集理论建模数据的方式类似于人类的自然认知,不易受外部参数影响,具有更强的鲁棒性。本文利用模糊粗糙集技术在以下三个方面对数据预处理进行了研究:(1)针对基于模糊粗糙集的实例选择算法FRIS-III计算量大的缺陷,提出了一种减少实例选择计算量的改进算法。该算法区别对待数据集中的每个数据,利用FRIS-I算法快速筛选出疑似噪声数据。优先考察疑似噪声数据对数据集依赖度的影响,避免了整个数据集的遍历。若移除所有疑似噪声数据后数据集中的数据仍未完全属于正域,再对此时的数据集进行遍历。该算法有效减少了实例选择初期的计算量,同时获得了与原算法媲美的模型性能。(2)研究了基于模糊粗糙集的实例选择混合算法及其在信用评分领域的应用。传统的基于聚类的信用评分混合模型根据聚类原理剔除不一致的数据实例,从而获得高质量的数据集用于下游模型训练。但不合理的聚类个数或者初始类簇中心点会严重影响聚类结果,而基于模糊粗糙集的实例选择技术根据数据集自身结构特点识别噪声或离群数据,不受外部参数影响。面向信用评分领域,提出了一种二阶段的混合算法框架,FRIS-I和FRIS-II两种算法分别应用在预处理阶段筛选核心数据,剔除噪声数据。预处理后的数据集在分类阶段应用在SVM等分类器上构建混合分类器。实验表明两种混合分类器获得了远优于LDA、LR、NN和SVM等基准分类器的性能。由于两种分类器的实例选择原理不同,从实验结果来看,第一种混合分类器更适合分散型的数据集,而第二种混合分类器对相对集中的数据集更加有效。(3)提出了一种基于粒子群优化的模糊粗糙集同时特征选择和实例选择的双约简算法。该算法引入基于ε-双约简的适应度函数来评估双约简的质量,引导搜索过程逼近最优解。与同类算法相比,该算法采用基于粒子群优化的更新机制避免了贪婪搜索和随机特征选择,借助粒子自身和群体的探索经验,在更少的迭代次数内识别到高质量约简。实验结果表明,在相同的实验条件下,提出的算法显著减少了特征和实例数量。与SFRIFS算法相比,在部分数据集上获得了近20%的分类性能提升。与HSFSBR算法相比,在更少的迭代次数内在获得了更好的分类精度。
其他文献
<正>幼儿教师要学会运用辩证的思维看待社会上的负面新闻及各类评价,保持从业的定力和恒心。随着社会的发展,幼儿教育体系也在逐渐完善。2015年幼师资格证考试改革,将报考条件提升为必须具备大专及以上学历,考试难度也增加了很多,大大提升了新入职教师的素质。幼儿接受高质量的保育和教育离不开优秀的教师,而优秀教师的成长离不开系统化的教师专业发展计划和策略。万千教育出品的《幼儿教育领导者手册——如何促进教师的
期刊
<正>主持人按套用一句俗滥的话:宪法渊源的讨论既有实践价值,又有理论意义。正是基于中国法治实践的需求,“混乱而无用”的宪法渊源才重新回到宪法学界的视野中。2021年第四届中国宪法学青年论坛以宪法渊源为主题,其实践背景就是我国“依宪治国”“依宪执政”要求下合宪性审查工作的推进:合宪性审查,必须明确所依据的“宪”是什么。在此实践场景预设下,清晰而坚硬的共识得以达成:在包括中国在内的现代成文宪法国家,宪
期刊
在“碳达峰”、“碳中和”和大规模新能源应用的背景下,氢储能具有清洁、大容量储存的特点,有助于提高新能源利用率和电力系统运行稳定,进一步减少碳排放,因此氢能源成为大力发展的未来能源之一。氢储能在容量配置以及经济性方面是现阶段研究的重点。文章以含氢储能微网的基本结构为例,介绍其各装置的数学模型以及相关研究进展,并详细介绍了氢储能和其他储能技术的特点以及应用;探究了目前在容量规划配置方面的现状,优化配置
将碱处理改性的beta沸石用于甲缩醛和三聚甲醛合成聚甲氧基二甲醚。结果表明碱刻蚀沸石可形成多级孔道结构且并未改变原有的沸石晶型,随着碱浓度的增加沸石结晶度有先增大后减少,外表面积不断增大,中孔孔容呈火山型曲线趋势。与未改性沸石相比,经0.3 mol/L NaOH处理后的样品,目的产物收率最高可达61.35%,改性后beta沸石达到化学平衡所用反应时间缩短了近1倍。
研究基于2016—2020年百度指数数据,研究疫情影响下福建省5A级旅游景区网络关注度变化,分析时间、空间分异特征,结果显示:(1)时间分异特征上,表现为疫情影响下人们的搜索行为在周内发生巨大变化;季节性表现为疫情前的最高峰为疫情后的低谷;旅游景区网络关注度呈现出黄金周的井喷式发展变化;景区关注度年际变化受疫情影响表现出下降趋势.(2)空间分异特征上,游客网络关注度具有明显的空间集聚效应,主要客源
[研究意义]清末军服改制是触及传统礼教符号的重要改革之一,在晚清与民国的军事、社会方面有着深远影响。[研究方法]文章主要采用文献分析法,结合皮尔斯符号学理论,以清末1903-1912阶段军服改制的史实资料为中心,分析清末军服“华洋折中”表征下复杂的符号意义。[研究结果与结论]研究得出:(1)从不同语境的解释需求出发,军服改制的“华洋折中”风格具有合理性与必然性;(2)军服改制中对传统符号的保留建立
多级孔分子筛是指同时具备微孔、介孔或者大孔结构的分子筛。在微孔分子筛晶体内引入介孔或者大孔,可以提高反应物和产物的扩散性能、催化剂活性中心利用率和抗积碳失活性能。多级孔Beta分子筛的制备是近些年分子筛领域的研究重点,但是目前的研究主要集中在粉末形态多级孔Beta分子筛的制备,有关工业形态多级孔分子筛的研究较少。粉末状态的分子筛在投入工业反应器(流化床、固定床、移动床、浆态床等)使用之前,必须与粘
套管破损(套损)直接影响油水井正常开采,给油田造成巨大的经济损失。长庆油田每年有几十口井因套损出水导致高含水关停,如何有效治理套损高含水井,提高油田采收率,是长庆油田目前面临的重要工作之一。针对该难题,开展套损井腐蚀机理及判识技术研究,通过油井临时改注,利用相适应的生产测井组合测试技术,进行出水位置的精准判识。通过对长庆油田Z277示范区块多井次的现场应用,利用该技术找到出水位置并处理后,A井日产