数据流分类中的多源在线迁移算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:gonyen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据、物联网等技术的发展,大量的数据以“流”的形式快速产生,从而形成了数据流。数据流中常常隐含着概念漂移。在概念漂移刚刚发生时,仅能获取到少量属于新到概念的样本,使得分类器在少量数据上无法得到充分训练,分类性能往往较差。在概念漂移发生后,如何使得分类性能快速恢复,对于数据流分类至关重要。近年来,迁移学习算法迅速兴起,为数据流分类问题的解决提供了新思路。但是现有的基于迁移学习的数据流分类算法,大多仅能使用单源领域进行辅助学习。在源领域较弱时,很难获得较好的迁移效果。因此,如何合理的使用多个源领域进行迁移学习加速分类器分类准确率的恢复成为了新的挑战!  针对在数据流初期样本较少和数据流中的概念漂移问题,本文开展了以下两个方面的工作:  (1)针对增量决策树(VFDT)算法在不满足Hoeffding边界时,分类性能较差的问题,本文改进了VFDT,使其能够适用于在线迁移学习框架(OTL)并处理连续属性-DOTL。为弥补DOTL在源领域较弱时的不足,结合VFDT和局部相似度提出一种多源在线迁移学习算法-DMOTL。实验结果表明,将样本传递到叶节点能提高VFDT的分类准确率,单源在线迁移学习算法DOTL能有效的从单个源领域迁移知识,与VFDT对比显示出较高的准确率,DMOTL更能有效的实施多个源领域知识的迁移,与DOTL对比能显示出更高的准确率。  (2)现有的基于在线迁移学习的概念漂移算法仅能使用单个概念的知识辅助新到概念进行学习,在历史概念与当前概念相似性较差时,分类模型的分类准确率不理想。现有多源在线迁移学习算法在发生概念漂移时,无法及时的调整分类模型以适应新到概念。针对以上问题提出一个能够利用多个历史概念知识的数据流分类算法—CMOL。CMOL算法采取动态分类器权重调节机制,在发生概念漂移时,能够迅速调节每个分类器的权重,根据权重对分类器池进行更新,使得分类器池能尽可能包含更多的概念,在利用分类器池中的分类器进行迁移学习时,分类模型能较快地适应新到概念。实验表明,CMOL相较于CDOL能够在概念漂移发生时更快的适应新到概念,从而显示出更高的准确率。
其他文献
智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题,其研究内容涉及计算机视觉、模式识别、人工智能、通信网络等多个学科。智能视频监控的目的是利用计算
随着互联网络的发展,Web页面的数量激增,人们需要对大量的文本资源进行有效的组织,以有利于信息检索、模式发现、为用户提供推荐服务,以及为进一步的分类提供模式基础,于是Web页面
复杂网络不同于以前的网络系统,它们是动态开放的,不断成长演化而且具有生命的特点。复杂网络在局部层次上杂乱无序,而在整体层次上都呈现出小世界、高聚类度和scale-free的
随着无线局域网的广泛应用,随之而来的安全问题也越来越多地受到人们的重视。身份认证是网络实现其安全的第一步。由于无线传输媒介的空间开放性,不能通过网络的物理边界来限制
解决三维虚拟试衣的真实感、个性化、实时性等问题是当今服装CAD相关研究领域的一个核心问题,也是突破服装电子商务发展瓶颈的一个关键问题。本文首次提出基于实例驱动的虚拟
随着联网设备特别是嵌入式联网设备数量的增加,能提供几乎无穷尽IP地址的IPv6协议的优势越来越显著。但目前应用于嵌入式设备的IPv6协议栈很少,所以,在嵌入式设备中实现IPv6协议
随着网络技术的普及和教育信息化程度的提高,教育领域的知识管理已经成为网络教学中研究的热点,它通过发展知识交流的技术和知识组织的内部结构,帮助学习者获取知识,并促进他们之
随着Internet的快速发展,基于Internet的分布式计算也迅速地发展,出现了许多新的、大规模的、开放的分布式系统。多Agent系统(MAS),为分布开放系统的分析、设计和实现提供了
Web系统是一种特殊的C/S应用软件系统,随着因特网的飞速发展,Web系统的应用越来越普及和深入,而保证系统能在预期工作负载下正常工作的性能测试也越发显现其重要性来。本文在
随着Internet的迅速发展和普及,电子邮件以其方便、快捷、成本低等特点而成为人们生活中重要的通信手段之一。但随之而生的垃圾邮件,则占用了大量网络资源,浪费了网民的宝贵时间