论文部分内容阅读
信息时代的到来使得人类生活各个领域每时每刻产生着多样、变化着的数据,数据规模越来越大;根据人类的渐进式认知原理,在较大数据背景下一次性获得知识的完备模式是很困难的,并且学习也是在原有知识模式基础上对新知识进行模式分类的过程。增量学习思想符合人类渐进式获取知识的一般规律,因此在机器学习算法中引入增量学习算法,使机器具有动态更新学习能力尤为重要。属性偏序结构图具有层次清晰、结构简约、连线无交叉的特点,是表征概念间关联关系的可视化工具。目前属性偏序结构图的成图算法是基于批量式构建方法,本文将增量学习算法融合到成图方法中,使其具有动态成图功能,并可实现最简模式和完备模式临界的数据挖掘过程。随着数据粒化和增量学习的实现,数据维数也会随之提高,为了选择高价值特征,减少噪声数据对分类的影响,本文引入基于最小绝对值收缩和选择算子算法(Least absolute shrinkage and selection operator,Lasso)实现对定性数据和定量数据的属性特征选择,既保证了模式识别准确率同时有利于可视化效果。本文首先对增量学习算法、特征选择、形式概念分析做了研究现状分析,并阐述了混合数据处理、属性偏序原理、覆盖原理、一致决策模式规则表相关理论知识为后文算法提出做基础。之后以属性偏序结构图的成图算法为主线提出了基于最小基尼指数的连续数据粒化算法,以及混合数据处理方法生成形式背景。针对增量学习维数大量升高的问题,设计了基于特征选择的多级联Lasso特征选择组合反馈系统,以保证准确率的前提下选择局部最优组合。同时提出了基于CGAO(Combination of Gini And Objects)的新的行列优化准则实现数据结构优化,给出了分层模式矩阵的计算机生成算法。最后结合属性偏序结构图实现规则可视化,采用本文分类方法以5个标准UCI标准数据库为实验数据,并与KNN、SVM、Adaboost、Random Forest分类器进行分类准确度比较,其中Pima Indians Diabetes数据学习达到40%增量比例时模式识别的准确率(77.66%)超过Adaboost(75.32%)、SVM(77.27%)、1NN(59.74%)、3NN(75.97%)三个主流分类器,且学习比例为90%时准确率可达80.52%。结果显示,采用本文提出的可视化模式识别方法进行准确性的试验和比较,验证了可视化增量学习的必要性。