论文部分内容阅读
概念漂移是数据流挖掘的一个研究热点与难点,也是现实世界和网络世界中普遍存在的一种现象。随着互联网技术的快速发展,愈发受到学术界与民众的关注。目前概念漂移尚未有统一定义,主要泛指的是在动态变化中信息系统的部分内涵信息或特征信息会随时间发生难以预测的变化,使原有的分类器分类不准确或决策系统无法做出正确决策,甚至导致误判等不良后果,常见于推荐系统、金融领域、决策领域等。目前多数学者对概念漂移的研究态度还处于简单规避的层面,对概念漂移的发生条件、趋势相关的研究还很少,对于如何判断认知收敛更是研究盲区。同时在数据流中时常会发生快速而又细微的概念漂移现象,这些概念漂移在短时间内对决策系统造成的影响微乎其微,因此往往被人忽略。但随着时间的推移,有些效果相同的影响会逐步叠加,导致决策系统的精度下降,目前还缺乏合适有效的方法来解决这类问题。粗糙集理论是一种专门用于刻画数据不完整性和不确定性的数学工具,能够有效地分析和处理信息系统中各种不精确、不完备的信息,并且可以在没有任何先验知识的情况下对数据进行分析和推理,得到相对客观公正的处理结果。由于粗糙集理论在处理不确定性问题上的独特优势,逐渐被应用于概念漂移探测。本文的研究内容为:一方面尝试将增量学习思想与传统粗糙集模型相结合,结合两者优势,构建一种能适应快速变化数据流的增量式概念漂移探测模型,去探测数据流中快速而又细微的概念漂移,并通过迭代训练不断完善决策系统。理论分析与仿真实验结果表明,新模型在探测概念漂移和学习新知识时较其他静态模型更为敏感且高效。新模型的良好效果也为粗糙集理论未来如何推广应用于大数据分析和数据流处理提供了一种有效可行的新思路。另一方面利用本文提出的新模型作为研究工具,从整体决策系统的角度来研究概念漂移。在以往学者的研究成果上,对认知收敛的性质和标准做出进一步完善与调整,同时分析了概念漂移与认知收敛之间的影响与联系。从认知角度来看,本文的结果可以解释为什么选用不同数据集或同一数据集不同部分进行分类时,前后结果差异较大的原因。也可以进一步解释现实世界中人与人之间对同一事物产生意见分歧或误解的原因。本文的创新点归纳如下:1.结合增量学习思想与粗糙集理论,提出了一种能适应动态数据流的增量式概念漂移探测模型。2.从粗糙集角度出发,对决策系统中认知收敛的性质和标准做出进一步完善与调整,同时分析了概念漂移与认知收敛之间的影响与联系。3.对概念漂移的内涵与影响做进一步延伸。