面向数据流贝叶斯分类的动态学习策略研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:hahaho520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模传感器,信息监控系统,搜索引擎,社交媒体等应用中,时时刻刻都在产生着海量的、随时间不断变化的数据。对这些海量数据的监控、分析及其进一步挖掘是当前数据挖掘领域的一大热点。数据流是以序列形式出现的可能无限的实例序列,它具有高速、海量且随时间动态变化的特点。因此,对数据流的挖掘学习就必须要做到对数据流进行一次扫描、快速处理且能够动态更新。在动态变化的数据流上建立自适应的分类器是当前数据挖掘领域最重要的研究问题之一。目前许多数据流挖掘方法都不约而同地假定数据流的底层特征空间是静态的。然而,诸多现实生活中的应用场景却无法避免特征漂移的发生,比如随着时间的推移一般特征属性与目标概念的相关性发生变化从而导致概念分布的变化。此外,底层特征空间的动态变化还可能导致原先的相关特征属性不再相关甚至消失或者原来消失的概念又重新出现。基于这样的数据流环境,就需要分类器能够动态跟踪这种变化并能够自适应更新。对此,本文从数据流的特征漂移问题以及底层特征空间改变导致的概念演变问题两个方面展开了研究,主要工作包括:(1)针对数据流特征漂移问题,提出了一种动态特征加权的贝叶斯数据流分类算法。其核心思想是:考虑到数据流的动态更新性,一般特征与目标概念之间的相关性可能随着时间不断变化,为了跟踪这种变化并且将其应用到对新实例的预测上,利用信息论中的增益率来选择重要属性,并对分类过程中的特征权重进行动态更新以提高分类准确率。实验结果表明,该算法在分类准确率上较于其他单分类算法得到了提升。(2)针对数据流动态特征空间导致的概念演变问题,提出了基于贝叶斯的集成分类算法。算法通过连续存储一些基本学习模型,用动态特征空间表示数据流中的不同概念。对于每个基本分类模型,仅保留最具预测性的特征,将基本分类模型以概念向量的方式存储于模型库中,并且根据数据流的动态变化进行调整。在此基础上,选择合适的基本模型组成集成分类器,用于对新到来的未标记实例进行预测。实验结果显示该集成算法在大多数数据集上较其他集成算法更具有更好的分类性能。
其他文献
结构决定性质,物质的微观结构是了解其物理性质的基础。因此,从微观原子尺度了解物质的结构及其变化规律有利于开发高性能的材料体系。液体结构对于研究其形核、结晶以及玻璃
推荐算法在电子商务平台发挥着越来越重要的作用,推荐算法的好坏直接影响用户的体验,进而影响着电子商务平台的收入。因此提出好的推荐算法并对提出的算法进行优化是本文研究
网络控制系统是指将控制单元中的传感器、控制器、执行器等通过通信网络连接在一起进行信息交换的实时闭环反馈系统。相比于传统的点到点控制系统,网络控制系统具有系统组件不受空间位置的束缚、便于远程操作控制、信息资源可共享、连线少、易于系统的维护和扩展等优点。但是由于通信网络本身性能的不确定性,在对数据进行传输的过程中将会产生不确定的时延,而时延会影响网络控制系统的控制性能。本文对网络控制系统的时延预测及补
利用鱼眼相机进行天文导航和定位改变了传统天文导航定位的实现方式。虽然鱼眼相机拥有视场大的优点,但同时畸变也大,天文大气折射对利用鱼眼相机的天文导航定位测量的影响也
IT产业发展的第六次浪潮即将到来,技术不断迭代更新,而微电子行业始终在IT产业中占据着极为重要的位置。切实提高我国微电子行业的技术水平和发展规模,是发展“互联网+”的重要技术支撑。微电子行业属于资本和技术双密集型的产业,技术的背后是优质人力资本的高强度竞争,技术的迭代更新需要高素质的人才、合理的机制体制以及优秀的企业文化作为支撑。作为知识型员工的代表,研发人员通常具有注重自身价值与自我发展、重视精
本文建立在隔网对抗项群基本单元竞技过程理论基础上,对世界优秀羽毛球女子单打比赛竞技过程进行定量分析与探究。通过对多场高水平羽毛球赛事的深入分析,准确把握世界优秀羽
21世纪是个信息化时代,我们面临着信息过载的问题,因此要获取到对我们有价值的信息变得非常困难,虽然搜索引擎在一定程度上能够缓解这个问题,但是这只是相对于需求明确的用户
本文将重点阐述中学生藏语文书面作文教学不同的训练策略,选取案例《如何写好记叙文》的“五变”绝招,借此改变旧的书面作文教学状态,探求中学书面作文教学内在的规律与科学方法
在面向对象程序设计过程中,Code Smell是一个影响程序设计、运行效率和维护成本的问题,是一种由于不好的设计和实现所带来的症状。在某种情况下,Code Smell源于开发人员在一
三维成型机作为一种新型的打印技术,因其操作简单,成本低,可打印复杂零件等优势被广泛应用在机械制造、医疗设备、珠宝等领域。但是三维成型机的硬件设备较多,内部结构复杂,