数据流分类中若干问题的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:wushenjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多应用领域产生的数据属于数据流类型,比如信用卡交易业务、传感器网络和网络监控等等。如何从数据流中发现隐含的知识,即数据流挖掘成了一个研究热点。流数据高速、连续无限和动态的特性使得传统的数据分析和挖掘技术无效或需要改进。 本文针对数据流分类中的几个关键问题进行了研究,包括高效地建立分类模型、监测和识别数据流的变化、如何使分类模型有效地适应数据流的变化等。主要的工作有以下几个方面: (1)提出了一种处理数值型属性的方法,可以高效地建立数据流的决策树分类模型。数据流连续无限和高速流动的特性对算法的时空性能提出了严峻的挑战,不但要求使用固定大小的适量内存,而且对整个数据流仅存取一次,实时地处理每一个对象。对于决策树而言,数值型属性的处理是满足实时性要求的瓶颈。数据流往往包含大量的数值型属性,且每一属性又可能具有大量的不同值,如何高效地处理它们是问题的关键。现有的方法有的不能处理数值型属性,有的计算代价较高。本文利用数值型属性在构建决策树中的特殊性质,可以高效地处理数值型属性,建立一个有效的决策树分类模型。实验结果表明了方法的有效性。 (2)提出了一种监测数据流变化的方法,能可靠地识别噪声变化和显著变化,有助于正确地更新模型,降低类标数据的需求量。数据流的应用是一个不断延续的过程,产生数据流的概率分布模型容易发生变化。为了有效地适应潜在的变化,分类算法不但要监测变化,而且能区别不同性质的变化。对导致分类模型无效的显著变化具有敏感性,对噪声变化具有健壮性。现存的方法有的完全依赖类标数据监测变化,有的缺乏可靠性。本文将监测和识别变化分成两个步骤:利用决策树的结构信息和无类标数据实时地监测变化;当出现可疑变化时,利用少量的标记资源,可靠地验证变化的真实性,以便正确地响应显著变化,忽略噪声变化。 (3)针对显著变化,提出了一种主动学习算法组织质量最优的训练数据,更新过时的分类模型,降低类标数据的需求量。一旦数据流发生显著变化,必须组织类标数据更新无效的分类模型。标记数据是一个费时、费力的处理过程,许多方法假设类标数据及时可用,但这一假设往往不成立。有的方法被动地等待类标数据可用,无法适应数据流变化的不可预测性。还有一些方法随机地组织部分类标数据,效率较低。主动学习方法可以高效地选取最具代表性的对象作为训练数据。实验结果表明,利用适当的标记资源,基于主动学习的方法可以保持一个有效的分类模型,在标记资源较少时,取得比其它算法更好的效果。 (4)为了避免或缓解由于标记资源不足引起的过度拟合问题,提出了一种半监督学习算法,该方法不依赖于额外的标记资源,利用少量的类标数据和大量的无类标数据,极大地提高分类模型的性能。实验结果表明,基于半监督学习的方法可以大大降低类标数据的需求量,相比于其它方法,可以显著提高模型的性能,特别是在类标数据很少的情况下。 (5)提出了一种主动学习和半监督学习有机结合的方法,能充分发挥各自的优势,互相弥补各自的不足,进一步提高了分类模型的性能和降低类标数据的需求量。一方面,半监督学习方法利用大量无类标数据可以克服或减轻主动学习中类标数据偏斜或不足的问题。另一方面,主动学习方法收集的代表性数据集可以避免和缓解半监督学习方法的局部最优问题。
其他文献
在社会信息化的过程中,信息传输和存储的安全保密问题已经成为人们关注的一个重要课题。密码技术是信息安全的核心技术,计算机网络环境下信息的保密性、完整性、可用性和抗抵
分布式协同CAD系统是CSCW技术的一个典型应用。它支持不同地理位置的多个设计者通过分工协调和随时随地的交流合作完成同一个制图设计任务,满足了人们在信息社会中工作模式的
光度立体建模技术是基于图像建模方法的一个重要分支,与几何造型,三维扫描重建,及光度立体之外的其它基于图像的建模技术相比,具有精度高,成本低廉,流程简便,效率高等特点,在
彩色图像分割是指按照某些准则把图像划分为同质、有特殊语义的不同区域。作为图像分析和图像理解的基础和关键技术,彩色图像分割一直是计算机视觉和图像处理领域研究的热点和
随着图形处理能力,计算机存储能力和网络带宽的不断提高,使得以大规模存储、计算机网络、多媒体和虚拟现实技术为基础的虚拟城市应用成为可能。实现虚拟城市应用的其中一个基
随着计算机技术、互联网技术以及通信技术的发展,远程教育正经历着一场前所未有的挑战,如何将现代的科学技术与教育结合起来,解决目前教育普及存在的问题,是现代远程教育研究和发
随着计算机网络与数据通信技术的飞速发展和广泛应用,信息安全已成为人们在信息社会中生存与发展的重要保障。现代密码学技术是信息安全的核心技术,数字签名是现代密码学的重要
在信息化建设呼声高涨的今天,许多企业、学校等机构纷纷建立了自己各部门的信息系统。然而随着信息化建设的加快,在实际应用中我们经常需要用到其他系统中的数据,而原有分散系统
随着因特网的蓬勃发展和社会信息化水平的日益提高,网络业务日趋多样化,这对运营商在网络中提供的服务提出了更高的要求。本文研究的课题业务选择网关(SSG)使运营商能够实现
随着信息化进程的深入,计算机支持的协同设计(CSCD)正受到日益广泛的重视,并成为一个研究热点,它的深入研究和推广应用需要解决一系列的技术难题,而协同感知技术的研究便是其中的