【摘 要】
:
传统的大多数机器学习算法在静态封闭环境下运行,且通常假定数据的分布在算法执行时保持不变。但是在众多实际应用环境中,大量数据以高速无限流的形式产生,这些数据的分布受设备损耗、环境变化等因素的影响而不断地发生变化从而产生概念漂移现象,数据的这种产生和变化方式给传统的静态数据挖掘提出了极大的挑战。数据流挖掘在此背景下应运而生,且数据流分类在大规模实时数据处理中起着至关重要的作用。受到标注成本高、数据量大
论文部分内容阅读
传统的大多数机器学习算法在静态封闭环境下运行,且通常假定数据的分布在算法执行时保持不变。但是在众多实际应用环境中,大量数据以高速无限流的形式产生,这些数据的分布受设备损耗、环境变化等因素的影响而不断地发生变化从而产生概念漂移现象,数据的这种产生和变化方式给传统的静态数据挖掘提出了极大的挑战。数据流挖掘在此背景下应运而生,且数据流分类在大规模实时数据处理中起着至关重要的作用。受到标注成本高、数据量大以及数据产生速度快等因素的影响,标注所有数据是昂贵的、不切实际的。半监督环境下的数据流分类研究如何利用一部分带标记的样本和大量无标记样本来检测数据分布的变化、训练和更新模型?因此,数据流的半监督分类更加符合实际应用场景,具有众多的实际应用价值。与此同时,半监督环境也给数据流分类带来了新的挑战:1)在少量有标记样本上训练得到的模型的泛化能力比较差,如何利用大量无标记样本的内在结构和分布来辅助模型训练和更新;2)基于准确率的概念漂移检测方法并不能很好地适应半监督环境,如何同时利用有标记和无标记的样本检测数据分布的变化,并通过模型更新来适应动态的数据流环境。考虑到数据流半监督分类研究的实际应用价值和少量样本有标记带来的新挑战,本文从两个方面展开研究:(1)现有的数据流分类研究主要关注有监督学习问题,针对数据流的半监督分类研究尚未引起足够的重视。因此,本文在全面收集数据流半监督分类算法的工作基础上,从多个角度对现有数据流半监督分类算法进行划分,并以算法采用的分类器类型为线索,对已有的40多个算法进行了介绍与总结;归纳了现有数据流半监督分类算法中采用的概念漂移检测方法;在一些被广泛使用的真实数据集和人工合成数据集上,对部分数据流半监督分类算法实施了多方面的实验与分析;最后,本文提出了当前数据流半监督分类研究中一些值得进一步深入探讨的问题。(2)考虑到聚类算法能够捕获数据的内在结构和分布,许多研究工作已经将聚类应用于数据流半监督分类领域。然而,现有的算法在概念漂移检测中没有考虑到样本的局部结构信息,无法准确地检测到新概念和重现概念;基于聚簇的分类器不能被相同概念下的数据块增量更新来提高自身泛化能力。因此,本文提出了基于BIRCH集成和局部结构映射的数据流半监督分类算法SCBELS。半监督的贝叶斯方法和迁移学习中的局部结构映射策略被结合来计算每个样本和各分类器之间的局部相似性从而实现概念漂移检测;当算法检测到重现概念时,相应的BIRCH集成分类器被增量更新以提高模型的泛化能力。大量对比实验从多方面验证了SCBELS算法的优势。
其他文献
随着科学技术的飞速发展,雷达目标定位领域对抗干扰、多环境和实时的技术的需求越来越高,而近年来神经网络算法与各个领域结合的飞速发展使其成为了可能。本文主要研究了基于传统相控阵的稀疏阵列的远近场目标定位以及基于单频接收机制下频控阵(FDA)与神经网络结合的目标定位算法,根据阵列雷达接收回来的回波信息来确定目标的角度信息和距离信息。本文的主要工作如下:1.针对存在远近场目标的场景下,相控阵目标定位精度不
近些年来,随着“互联网+”模式在教育领域的应用,传统教育模式也随之发生了变化。在实验教育领域中,许多高校正在使用虚拟实验与传统实验相结合的教学方式。虚拟实验平台作为实验室的辅助系统,让学生在课前课后同样可以进行实验操作,有助于提升学生的学习能力,其中对实验操作的考核评分成为虚拟试验平台的研究核心和热点。传统的评分系统只能对选择题进行评分,无法实现操作题的评分或只能将实验数据结果与标准结果对比来判断
伪卫星是一种能发射类GPS/BDS信号的地面无线导航设备,能有效弥补GNSS系统在室内等复杂遮蔽环境信号弱、定位精度差的缺陷,可辅助GNSS系统用于提高定位精度,也可搭建伪卫星独立组网,实现室内外等特殊环境的导航定位。一般的伪卫星设备只单纯实现导航信号发射、接收,其接口少、扩展性差,仅限于单纯应用环节,大大限制了伪卫星相关技术与算法的设计和验证等研究工作的开展,也不能很好辅助多元化的GNSS系统的
随着通信技术的发展,现代军事无线通信对作战车辆信息集成度要求越来越高。同时为了满足跳频、扩频技术的需要,天线必然朝着小尺寸、宽频带和多频段等方向发展,特别是对于工作在VHF/UHF频段的天线,为了满足隐蔽性其较大物理尺寸也必然会向小型化方向发展。本文围绕实现VHF/UHF频段车载天线的小型化、多频段、宽频带以及高增益等展开研究。主要研究内容如下:1.VHF/UHF三频段宽带小型化天线的研究与设计。
图节点的分类被广泛的应用于社交网络、生物医学、电子商务等领域,一直是当今学者研究的热门话题。图节点规模的增加给现有的分类算法带来了巨大的挑战,探索高效的分类算法以满足人们迫切的实际应用需求是非常有必要的。本文对图卷积神经网络半监督节点分类的关键技术进行研究,首先在图卷积神经网络中加入图池化层和随机游走,有效的提高了模型的准确性。其次,在图卷积神经网络的效率上进行改进,设计一种新的自适应采样的快速图
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术具有传输速率高和抗多径干扰强的优势,被广泛应用于无线宽带通信领域,是第五代移动通信的关键技术。差分幅度相移键控(Differential Amplitude Phase Shift Keying,DAPSK)实现方法简单,不用信道估计也能获得很好的性能。本论文将OFDM技术与DAPSK
随着信息技术的深入发展,大家对于导航定位的精准度、可靠性、高动态等要求越来越多。在室外定位方面人们运用的往往是全球卫星导航定位系统(GNSS,Global Navigation Satellite System),2020年我国的北斗卫星导航系统将正式建成,为全球提供服务。即便于此,在实际应用中由于卫星导航本身的一些不足导致单一导航系统存在一定局限性。GNSS与捷联惯性导航系统(SINS,Stra
纳米材料由于其量子尺寸效应等特性,具有独特的电学、光学和磁学性能,优于传统光电材料,是制作光电器件和高性能电子器件的重要材料之一,在许多领域都有优秀的应用前景。目前有大量纳米材料应用案例,如基于纳米线的场效应晶体管,气体传感器,日盲光电探测器等通过使用纳米材料技术提升了器件性能。在众多材料科学研究的课题之中,纳米材料生长工艺和表征手段的研究备受关注。近年来,许多研究团队使用不同的制备工艺技术成功地
针对多数传统能量收集系统的能量来源单一,而现有的多源能量收集系统的追踪效率较低,输入功率范围较窄等问题,提出一种双源最大功率同步追踪电路(DSSMPPT),该系统采用基于比较器结构的最大功率追踪(MPPT)电路实时同步地追踪两个环境能量源的最大输出功率,通过设计的数字控制电路,MPPT电路中两个比较器可以共用单边延时电路从而提高电路的能量转换效率,且该数字控制电路根据比较器的输出信号切换输入能量源
随着智慧交通的快速发展,智能汽车的研发已然进行的越来越快,像自动驾驶,车路协同等需求的提出,加速了交通业新形态的产生,与此同时,道路安全愈发引起人们重视。而车辆再识别可以实现车辆的跨摄像头的定位、追踪,对于道路安全和实现智慧交通都有着重要的意义。车辆再识别问题的本质是目标再识别,与目标再识别中最经典的行人再识别不同,因为众多同一型号的车辆具有类似的视觉外观,车辆再识别会更有难度,而当唯一标记不同车