论文部分内容阅读
许多应用领域产生的数据属于数据流类型,比如信用卡交易业务、传感器网络和网络监控等等。如何从数据流中发现隐含的知识,即数据流挖掘成了一个研究热点。流数据高速、连续无限和动态的特性使得传统的数据分析和挖掘技术无效或需要改进。
本文针对数据流分类中的几个关键问题进行了研究,包括高效地建立分类模型、监测和识别数据流的变化、如何使分类模型有效地适应数据流的变化等。主要的工作有以下几个方面:
(1)提出了一种处理数值型属性的方法,可以高效地建立数据流的决策树分类模型。数据流连续无限和高速流动的特性对算法的时空性能提出了严峻的挑战,不但要求使用固定大小的适量内存,而且对整个数据流仅存取一次,实时地处理每一个对象。对于决策树而言,数值型属性的处理是满足实时性要求的瓶颈。数据流往往包含大量的数值型属性,且每一属性又可能具有大量的不同值,如何高效地处理它们是问题的关键。现有的方法有的不能处理数值型属性,有的计算代价较高。本文利用数值型属性在构建决策树中的特殊性质,可以高效地处理数值型属性,建立一个有效的决策树分类模型。实验结果表明了方法的有效性。
(2)提出了一种监测数据流变化的方法,能可靠地识别噪声变化和显著变化,有助于正确地更新模型,降低类标数据的需求量。数据流的应用是一个不断延续的过程,产生数据流的概率分布模型容易发生变化。为了有效地适应潜在的变化,分类算法不但要监测变化,而且能区别不同性质的变化。对导致分类模型无效的显著变化具有敏感性,对噪声变化具有健壮性。现存的方法有的完全依赖类标数据监测变化,有的缺乏可靠性。本文将监测和识别变化分成两个步骤:利用决策树的结构信息和无类标数据实时地监测变化;当出现可疑变化时,利用少量的标记资源,可靠地验证变化的真实性,以便正确地响应显著变化,忽略噪声变化。
(3)针对显著变化,提出了一种主动学习算法组织质量最优的训练数据,更新过时的分类模型,降低类标数据的需求量。一旦数据流发生显著变化,必须组织类标数据更新无效的分类模型。标记数据是一个费时、费力的处理过程,许多方法假设类标数据及时可用,但这一假设往往不成立。有的方法被动地等待类标数据可用,无法适应数据流变化的不可预测性。还有一些方法随机地组织部分类标数据,效率较低。主动学习方法可以高效地选取最具代表性的对象作为训练数据。实验结果表明,利用适当的标记资源,基于主动学习的方法可以保持一个有效的分类模型,在标记资源较少时,取得比其它算法更好的效果。
(4)为了避免或缓解由于标记资源不足引起的过度拟合问题,提出了一种半监督学习算法,该方法不依赖于额外的标记资源,利用少量的类标数据和大量的无类标数据,极大地提高分类模型的性能。实验结果表明,基于半监督学习的方法可以大大降低类标数据的需求量,相比于其它方法,可以显著提高模型的性能,特别是在类标数据很少的情况下。
(5)提出了一种主动学习和半监督学习有机结合的方法,能充分发挥各自的优势,互相弥补各自的不足,进一步提高了分类模型的性能和降低类标数据的需求量。一方面,半监督学习方法利用大量无类标数据可以克服或减轻主动学习中类标数据偏斜或不足的问题。另一方面,主动学习方法收集的代表性数据集可以避免和缓解半监督学习方法的局部最优问题。