不确定数据流环境下正例和未标记数据分类算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:yvedy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是大数据时代的典型代表,具有连续、单遍扫描、快速变化和海量无穷等特点,数据的不确定性是现实应用中数据广泛具有的属性,包括属性级不确定性和存在级不确定性,人们迫切的希望能从不确定数据流中获取有用的知识。作为数据挖掘中的重要基础工作,分类技术在各个领域均有着广泛的应用。然而,传统分类问题需要花费昂贵的代价去获得完全标记的样本,并且无法有效的处理数据流中知识随着时间变化的现象,即无法处理概念漂移。正例和未标记样本学习(Learning from Positive and Unlabele-dexamples,PU学习)不需要对样本进行完全标注,它是在只有正例和未标记样本环境下进行的学习。基于此,本文研究不确定数据流环境下只包含正例和未标记数据的分类问题。首先,介绍了不确定数据流、PU学习问题,概述了相关工作和研究背景及意义,并对国内外研究现状进行了总结。其次,提出了只包含正例和未标记样本的不确定数据分类算法。该算法基于Weighted Extreme Learning Machine(ELM)分类器,采用降维技术对不确定性进行处理,使用聚类技术提取可信正例和可信负例。算法不仅可以同时处理属性级不确定性和存在级不确定性,还能适应只包含正例和未标记样本的PU学习环境。最后,提出了只包含正例和未标记样本环境下不确定数据流的分类算法。算法使用先前提出的静态不确定数据分类器作为基分类器,采用集成分类策略。在对数据流中的概念漂移进行处理时,使用当前数据块与历史数据块簇集的相似性对概念漂移进行检测。当簇集的相似性大于相应的阈值时,认为发生了概念漂移。依据检测出的概念漂移的类别,分别采用不同的策略更新分类器。实验表明,算法可以对只包含正例和未标记样本环境下的不确定数据流进行分类,并且能够较好的对概念漂移进行检测和处理。
其他文献
异构网(Heterogeneous Network,Het Nets)是5G的关键技术之一,提高了网络容量和数据速率,解决了传统小区覆盖盲区的问题,但是愈加复杂的干扰问题也随之而来,这会导致系统的性
图像恢复问题是数字图像处理中的一项重要研究内容,而彩色图像恢复问题又是图像恢复中的一个重要分支。彩色图像在计算机中,不同于二维的灰度图像,是具有三通道结构的图像,因
近年来,随着软件技术的蓬勃发展,软件系统及开发团队的规模也随之迅速增长,开发人员得到的待修复缺陷报告数量也成倍增加,加之开发人员很难完全了解整个软件系统的全部代码文
目的:1.通过实验研究对比 ALPPS(Asscoiating liver partition and portal vein ligation for staged hepatectomy),联合肝脏离断和门静脉结扎的二步肝切除)组与假手术组不同时间行二期肝切术术后大鼠存活率是否有差异性,其差异性是否具有统计学意义?2.收集联合肝脏离断和门静脉结扎一期术后不同时间点行二期肝切除术后SD大鼠的存活
显卡是个人电脑的重要组成部分,主要包括图形处理单元(Graphic Process Unit,GPU)以及内存单元GDDR5(Graphic Double Data Rate version 5),用来作为图形输出和并行计算使用
可重构计算技术已应用于众多高性能计算领域,如多媒体处理、无线通信、气象模拟、分子计算等,已成为未来高性能计算架构的重要发展方向[1]。然而当可重构计算应用于媒体处理
随着网络、信息技术和分布式计算机的飞速发展,越来越多的设备接入互联网,越来越多的信息在网络上共享,对设备和信息的网络管理问题以及安全的访问控制问题变得越来越重要。
互联网时代导致了人们获得的资讯中存在大量冗余的或者无意义的信息,然而很多用户使用网络的目标是希望能够清晰的了解某一件事情的“因果”,避免浏览不相关或者重复信息。除
建设信息化校园是摆在高等职业院校面前的一项紧要任务,它是一项基础性、长期性的工作,信息化校园的水平标志着高职学校办学水平、学校的整体形象和地位。高校考务管理系统是
网络控制系统(NCS)是一种以通讯网络作为传输媒介的分布式控制系统,它将分布在不同位置的系统节点通过网络连接起来,不仅降低了系统布线的复杂程度,减少了系统的维护和运行成