动态数据环境下高效属性约简和最优约简方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:yykk110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新型信息技术的迅猛发展,各行各业中数据快速的增长和变化形成了动态复杂数据。如何高效的从动态复杂数据中获取关键有用的信息已成为各领域重要研究课题之一。基于粗糙集理论的特征选择方法已成功应用于机器学习、数据挖掘、模式识别和知识发现等领域的数据预处理过程。在粗糙集领域中,特征选择被称为属性约简,其主要目的是在保持原始数据分类能力或近似刻画不变的前提下,从原始数据中删去冗余或者不必要的属性。基于粗糙集理论分析推理数据方法最大的优势在于它具有完善理论基础以及它无需任何先验信息指导下处理数据,因此在动态数据环境下,研究基于粗糙集理论的属性约简方法具有重要的现实意义。目前已经提出了很多面向静态数据的最优约简方法和面向动态数据的属性约简方法。然而,无论是最优约简还是一般属性约简问题,现有的方法存在如下问题:一是最优约简方法在大规模数据集上失效;二是动态数据并没有考虑标记值缺失的情况;三是将属性值动态变化简单看成是样本的变化。为了改进这些不足,本文以超图理论、增量更新近似集技术以及局部搜索算法为研究工具,以决策系统为研究对象,在动态数据环境下高效更新属性约简问题和粗糙集理论中具有挑战性的最优约简问题展开了研究与探索,取得的主要研究成果和创新点如下:(1)针对样本动态增多的部分标记数据,构建了部分标记数据的两类诱导超图模型,在诱导超图的基础上,设计了一个具有低复杂度的快速求极小顶点覆盖的方法,相应的提出了基于超图模型的静态部分标记数据属性约简方法。进一步,讨论了样本动态增多后,从部分标记数据提出的诱导超图的更新机制以及极小顶点覆盖的更新机制,并提出了样本动态增多后基于超图极小顶点覆盖的增量式属性约简方法。基于超图模型的方法为处理部分标记数据提供新型高效的解决办法,该方法能够在较短时间内获取较优的约简同时保持了较高的分类精度。(2)针对属性值变化的动态缺失数据中如何高效更新属性约简的问题,提出了基于不一致度为度量的属性重要性定义和属性约简定义,并利用不一致度作为启发启发信息设计了缺失数据中属性约简方法。进一步,讨论了属性值变化后,缺失数据容差类的更新策略:当少量对象的属性值变化时使用对象相关策略;当少量属性的大量对象的属性值变化时使用属性相关策略;当少量对象的少量属性值变化时使用同时相关策略。基于三种容差类更新策略分析了不一致度的更新机制,并提出了属性值变化的动态缺失数据中基于不一致度的增量式属性约简算法的框架。该框架改进了目前处理属性值动态变化数据的弊端,对于不同规模属性值的动态变化选择合适的更新策略能够提高算法的效率。(3)针对粗糙集理论中最优约简问题,设计了两种结合局部搜索算法的属性约简算法:基于随机寻找交换属性对策略的局部搜索算法和带反向增量验证机制的局部搜索算法。后者在前者的基础之上加入了反向增量验证机制和调整迭代过程规则来提高算法运行效率和寻优能力,其中反向增量验证机制通过逆向的增量更新正区域达到快速寻找合适的交换属性对的目的,而调整迭代过程规则是防止过多的冗余计算量和避免算法过早的陷入局部最优。基于局部搜索的属性约简算法能够在较短时间内获取较优约简甚至最优约简,它是目前已知的平均时间复杂度最低的完备属性约简算法。(4)为了进一步探索求解最优约简的方法,提出了一种最优属性约简问题的泛化问题:K-size部分属性约简问题,并设计了两种方法:枚举法和基于局部搜索的方法。基于局部搜索的方法在枚举法的基础上提出了三个改进:快速构造初始解、解的生成规则以及动态对象加权策略,这三个改进使得算法只需要少量迭代过程就能够获得较优解甚至最优解。最优属性约简问题可以称为一种特殊的K-size部分属性约简问题,因而在某种意义上为求解最优属性约简提高了新的思路和方法。本文利用增量约简思想,设计了两种类型的动态决策系统中增量式属性约简方法,给出了部分标记决策系统中的超图模型以及样本增多时诱导超图的更新机制,同时构建了三种面向属性值动态改变的不完备决策系统中容差类的更新策略。另外,结合局部搜索算法和增量更新近似集技术探索了粗糙集理论中具有挑战性的最优约简问题,并提出了两种基于局部搜索的解决方法。通过在基准数据集上大量实验结果验证了本文提出的算法的有效性和可行性。本课题的研究工作在一定程度上丰富了和完善了基于粗糙集理论动态知识发现的方法,同时也为最优属性约简问题提供了新的研究思路和解决方案。
其他文献
减少碳排放量和实现资源循环利用是当今的热点话题。随着科技水平的不断提高,极大丰富了人类物质生活水平的同时,废旧电子电器设备的数量也急剧增加。另一方面,由于全球气温的升高,温室效应的危害越来越受到世界各国的关注。制造业绿色发展、循环发展成为解决当前我国环境、资源问题的重要国策。因此,在经济发展过程中,减少温室气体排放(生产环节)和实现资源循环利用(消费环节)当务之急。减少碳排放量和实现资源循环利用既
学位
由于实际工程中复杂精密机械产品设计制造过程中内部和外部因素在一定程度上影响试验数据的精确性,因此,模型不确定性普遍存在于产品质量特性建模过程中。代理模型方法具有计算量小、设计周期短和优化效率高等优点,是解决复杂精密机械产品质量特性建模问题最佳途径之一。当前很多专家学者在组合建模过程中,把所有候选代理模型线性加权组合,并未考虑建模过程中存在的模型不确定性问题,使得构建的组合模型可能存在预测性能不佳的
学位
工业园区是我国改革开放的产物,自1984年开始试点至今大体经历了三个阶段。即早期的经济技术开发区阶段,改进的高新技术开发区阶段和目前的生态工业园区阶段。随着我国社会经济的快速发展,工业园区逐步成为促进经济发展的主力军。由于工业园区具有高耗能的特点,因此工业园区在为我国社会经济发展做出巨大贡献的同时,也由于能源消耗的“三废”排放以及环境污染治理投入的相对不足,造成了一定程度的环境污染,对人类的生存环
学位
大脑核磁共振(Magnetic Resonance,MR)图像分割是很多医学图像分析应用中至关重要的一步。随着机器学习方法的快速发展,基于机器学习方法开发自动的大脑MR图像分割方法是当前研究的热点问题之一。机器学习方法能够从MR图像中学习到体素的分布,然后使用学习到的模型对图像进行分割。由于大脑结构极其复杂,有效的分割大脑MR图像是一个具有挑战性的任务。利用来自多图谱的解剖结构先验知识被证明可以有
学位
中国作为世界上最大的二氧化碳排放国,受到了来自国际和国内的双重减排压力。其二氧化碳排放量逐年增加,在2000年至2011年期间,上升的趋势最为明显,增加了大约2.85倍。为彰显大国形象、转变经济增长方式与推动低碳经济发展,中国主动承担了一系列减排任务。为实现所承诺的减排目标,中国政府颁布并实施了包含基于指挥控制和基于市场化等在内的多种减排措施。边际减排成本(Marginal Abatement C
学位
特征和在编码与组合中具有广泛的应用.本文应用特征和理论构造了两类线性码,构造了一类最优三元循环码,讨论了两种特殊群上凯莱图中PGST的存在问题,具体如下:(1)线性码在密钥分享方案,认证码与数据存储等领域具有重要的应用.本文运用有限域上的特征和构造了一类有限域和一类有限环上的线性码,给出了它们的重量分布及完全重量分布.结果表明本文给出的码有一些是优的.(2)循环码作为一类特殊的线性码,它在电子消费
学位
轴承和齿轮等旋转机械是工程机械、轨道交通、农业机械和航空发动机等设备的关键零部件。因此,研究旋转机械的故障诊断对保证机械设备的正常和稳定运行具有十分重要的意义。很多深度学习方法在旋转机械的智能故障诊断中得到了较为广泛的研究,但是由于机械设备的复杂工况,例如变转速、变载荷、时变转速等非平稳工况,使得传统深度学习方法的性能大幅下降。域自适应方法可以实现相似但不相同的两个数据集间的跨域故障诊断,虽然适用
学位
重大工程机械,如飞机、高铁、车辆等,在实际服役过程中都不可避免受到复杂疲劳载荷的作用。疲劳失效是工程中最典型的结构破坏形式,并且疲劳失效往往最先发生在结构几何不连续区域的缺口处,比如铆钉孔、键槽和轴肩等。疲劳裂纹一般萌生于缺口根部区域,这是因为缺口根部存在局部高应力区。在多轴疲劳载荷作用下,缺口根部不仅存在应力梯度而且还存在载荷非比例度梯度。工程构件的缺口疲劳寿命决定着整个结构的安全使用寿命,研究
学位
影像遗传学(imaging genetics或imaging genomics)是结合多模态神经影像学和遗传学方法,检测与影响神经疾病、认知和情绪调节等行为相关脑结构和功能的遗传变异。随着机器学习方法的快速发展,基于机器学习方法的影像遗传学是当前研究的热点问题之一。本论文是在机器学习的基础上开展影像遗传学分析,针对结构核磁成像对感兴区域的遗传研究和静息态功能核磁成像对功能连接的遗传研究,研究如何充
学位
复杂装备具有研制周期长、研制风险大等特征,是一个涉及多主体的协同过程,从设计、研发,到推向市场,复杂装备研制的供应链质量管理面临着巨大的挑战。供应链质量成本管控是提升质量竞争力的主要策略之一。本文结合Fuzzy-QFD、灰色决策理论、演化博弈理论、Stackelberg博弈等方法,从供应链质量协同设计、协同研制演化与惩罚机制、质量保障成本及价格决策、质量成本优化几个方面建立复杂装备研制供应链质量成
学位