论文部分内容阅读
随着工业物联网的快速普及,各领域中的海量复杂数据推动着企业的快速发展。但如何删除海量复杂数据中的数据噪音,获取对企业有价值的数据信息已经成为了当前信息科学的一大难题。此外,各领域中获取的数据在动态地变化着,如何有效利用新旧数据之间的关系对有价值的信息进行高效更新也是信息科学领域的重要问题之一。粒计算采用分而治之的策略,可以有效对动态系统中的知识进行更新,获取数据中包含的潜在价值。本文利用粒计算理论中简化复杂问题的方法及邻域粗糙集模型中混合数据的度量方式,以属性约简结果知识粒度的增量计算为技术手段,研究了混合动态信息系统中数据变化时的增量式属性约简算法。本文的主要成果包括:(1)为了提高在属性集发生变化时混合动态信息系统中属性约简结果的更新效率,本文首先分析了具有混合属性数据知识粒度的计算方式,然后探索了混合信息系统下属性增加时基于邻域模型的知识粒度增量更新的规律,基于此设计了一种针对混合信息系统中属性集变化时的增量式约简算法。并利用UCI数据集进行相关仿真实验对所提出算法的有效性进行了验证;(2)为了提高在样本集发生变化时混合动态信息系统中属性约简结果的更新效率,本文首先利用邻域模型下知识粒度的计算方式,并通过决策属性的分类将信息系统拆分为多个子信息系统,当混合信息系统中的样本增加或减少时,定义了混合信息系统中知识粒度发生变化时的增量式计算方法,提出了样本变化时混合信息系统的增量式属性约简算法。并利用UCI数据集进行相关仿真实验对所提出算法的有效性进行了验证;(3)为了进一步提高在样本集增加时大规模混合动态信息系统中属性约简结果的更新效率,本文分析已有并行式约简算法的理论成果,以混合动态信息系统中样本变化时增量式属性约简算法为理论基础,结合当前的并行模式,寻找合适的Key/Value对以及Map/Reduce函数,设计了一种并行式增量属性约简算法,为大规模动态混合信息系统的属性约简提供了有效方法。通过实验对比分析验证了所设计方法的有效性。本文利用邻域粗糙集模型对混合信息系统中的知识粒度的表达方式进行了扩展。当信息系统中属性集变化或样本集变化时,探究了混合系统中知识粒度的增量计算方法,并提出了针对混合信息系统的基于知识粒度的增量式属性约简算法,为混合信息系统中属性约简结果的快速更新提供了理论支持。通过比较分析,验证了所提出的动态属性约简算法的有效性。本文的研究工作扩展了基于知识粒度属性约简算法的应用范围,为动态混合数据环境下如何提高属性约简的效率提供新的方法。