含有概念漂移的不平衡数据流分类算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:t920215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的爆炸性增长导致数据流广泛出现在各个应用领域中,如无线传感器网络数据流、股票交易数据流、电子商务数据流等,如何高效获取这些数据中蕴含的信息成为数据流挖掘的主要任务。区别于一般的静态数据,数据流通常具有到达速度快、规模大、动态变化等特征,并且数据流中的目标概念随时间推移会发生改变,导致概念漂移发生,严重影响数据流挖掘效果。此外,数据流中通常存在类别不平衡问题,导致少类实例中蕴含的信息难以获取。因此,如何有效处理数据流中的概念漂移和类别不平衡问题成为数据流挖掘领域的热门研究方向。针对概念漂移和类别不平衡导致数据流分类模型性能显著下降的问题,本文提出了三种新的数据流分类算法,并通过对比实验证明了所提算法的性能,主要工作如下:(1)针对目前概念漂移数据流分类算法主要存在的两个问题:一是漂移检测延迟和误报率较高,且难以同时处理不同类型的漂移;二是缺乏识别重复概念的能力。为此,本文提出了一种基于主动检测机制且能够适应多种类型概念漂移的数据流分类算法。该算法使用双层窗口保存当前最新的分类结果,根据隶属度函数对窗口中数据分配权重并计算加权错误率,然后利用Mc Diarmid界判断当前窗口内错误率是否发生显著性变化进而检测概念漂移。检测到漂移后,使用半参数对数似然算法检验当前概念是否为过去概念的重现,进而决定是否复用旧分类器。实验结果表明,与以往同类算法相比,所提算法在漂移检测延迟、误报率、分类准确率和运行时间等指标上均有一定优势。(2)针对二分类数据流中概念漂移和类别不平衡的联合问题,本文在基于数据块的集成分类算法上引入成员分类器及其权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了一种基于G-mean加权的在线不平衡数据流分类算法。该算法基于集成学习框架,每到达一个新实例,在线更新所有成员分类器及其权重,并对少类实例进行随机过采样。每个成员分类器根据最近若干实例上的G-mean性能确定权重,其中Gmean基于时间衰减因子增量计算。同时,该算法会周期性地根据当前窗口中数据构造类别平衡数据集训练一个新的候选分类器,并选择性地添加至集成中。真实和人工数据集上的实验结果表明,所提算法的综合性能优于其他同类算法。(3)针对目前大多数不平衡概念漂移数据流分类算法只考虑二元分类而忽略多个类别的问题,本文提出了一种基于混合采样机制的动态加权数据流分类算法。该算法基于集成学习框架,增量计算每个类别实例的数量。每到达一个新实例,在线更新每个成员分类器及其权重,成员分类器的权重根据它们在最近实例上的MGmean性能确定,每个实例的学习频率由当前数据流中所有类别数量的最大值和该实例所属类别数量的比值决定。此外,该算法会周期性地利用混合采样构造多个不同的数据集,并在此基础上训练多个具有差异性的候选分类器以提高集成模型的泛化能力。实验结果表明,所提算法的综合性能超过了其他同类算法。
其他文献
PCB(Printed Circuit Board,印刷电路板)是电子产品的核心部件,广泛应用于现代社会的各类行业,市场需求量广大。PCB上元器件的缺陷检测是PCB生产的必经环节,而电子元件小型化、高集成化的趋势以及SMT(Surface Mounting Technology,表面贴装技术)的发展使得PCB上贴装的元件密度更大尺寸更小,传统人工检查的方式已无法满足工业上对于检测精度和速度的要求。
随着中国影响力的扩大和中华文化的传播,全球各地出现“汉语热”的风潮,越来越多的国际友人开始学习汉语。其中,来华留学生对于汉语学习有着必然需求,语言是交流的基础,而在实际生活中,来华留学生存在因语言不通、交流障碍而导致的留学生活体验差等问题。留学生承担着传播中华文化,扩大中国影响力的作用,因此,留学生汉语学习体验需要设计师的深入研究和实践。在本课题以情境认知理论为理论基础,首先对情境认知理论和用户体
不同的线条样式能传递不同的情感,探究线条及其衍生形式的情感表达模型能够揭示影响情感表达的根本因素,发展更多情感表示形式,并促进情感表达软件的开发与人工智能对不同表达形式的情感识别。本文的工作分为以下四个方面:1.探究线条不同样式与情感之间的映射关系。为了探究不同样式线条的情感表达,编写程序创建了87种样式的静态水平线条,采用27个情感效价词汇与2个情感唤醒度词汇,招募测试者进行线上测试,为每种样式
视频监控是“天网”系统的重要组成部分,也是近年来治安防护水平提高的重要推动力之一。随着视频监控设备的普及率逐年上升,监控系统智能化的需求也日益提升。目前,国内大多数的视频监控系统都需要人工值守,安排监控人员24小时轮班来实现监管。通常,每个监管人员需要同时监控多个显示屏,存在效率低、抗干扰能力差、容易受监管人员主观意识影响等问题。随着科研人员对图像处理、视频分析、行为识别等技术的研究越发深入,智能
随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的
随着社会的飞速发展,大型集会和游行活动的增多,活动中频繁的践踏事件造成大量人员伤亡,因此人群计数的研究成为近几年来计算机视觉领域的主要研究方向之一。本文通过深入分析卷积神经网络中的优势、充分考虑特征层内部之间的联系以及从分群分布随机的角度出发,提出以下三种不同的人群计数网络结构模型。(1)提出基于特征自学习多尺度残差生成对抗人群计数算法(Generative Adversarial Network
人体行为识别旨在针对数据中人体的行为和意图进行识别和理解,是计算机视觉领域一个重要且热门的研究课题,并在机器人技术、人机交互和智能监控等领域起着至关重要的作用。虽然行为识别算法在早期的研究中已经取得了极大的进步,但仍会受到光照改变、尺度变化、细粒度动作多等因素的影响。随着行为识别数据日趋丰富多样,利用多模态数据间的互补优势实现联合预测来提升识别性能逐渐成为许多研究者的重点研究方向。许多现有工作倾向
在文化消费升级的背景下,敦煌文化数字化产业进入了一个新的发展阶段。敦煌文化App作为敦煌文化的重要组成部分,是文化和历史记忆的载体,是敦煌文化与受众之间的桥梁。以移动端平台为基础的敦煌文化数字化传播方式,不仅为敦煌莫高窟带来了利润,也为受众提供了独特而个性化的体验。但目前市场上对敦煌文化App的设计还存在一些不足,这使得对敦煌文化App的设计研究越来越迫切。本文共五章,首先根据莫高窟文化研究现状,
为了应对日趋严峻的物联网恶意软件攻击,需要对恶意软件进行详细的分析并获得有效的威胁情报,从而增强对物联网攻击的发现与预警能力。本文面向物联网威胁情报的需求,分别从恶意软件分析、轻量级物联网异常流量检测角度展开威胁情报挖掘关键技术研究。本文的主要工作和创新内容概括如下:(1)针对当前物联网恶意样本的检测率不高,物联网恶意软件架构复杂,用于训练的正常样本提取困难,动态分析检测耗时、耗费资源等问题,提出
甲状腺癌是全球增长最迅速的、最多见的内分泌恶性肿瘤之一。在最近的几十年中,甲状腺癌的世界发病率显著升高。甲状腺癌还是女性中排名第五的最普遍的癌症,并且女性患癌的概率是男性的3倍。由于甲状腺癌复杂的疾病进展过程,预测这种癌症的潜在生物标志物仍然面临巨大的挑战性。本文基于TCGA数据库和GEO数据库中甲状腺癌的多组学数据以及新近开发的一些特定的生物数据存储库,通过基因差异表达分析、构建生物网络以及基因