基于分布式极限学习机的不确定数据流分类技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:yijun5802382
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流分类技术是数据流挖掘中的重要组成部分。然而在许多实际应用中,数据的不确定性是普遍存在的,并且随着数据量的急剧增加,传统的集中式的分类方法已经不能有效地学习这样的海量数据。面向不确定数据流的分类面临如下的挑战:(1)如何对不确定流数据进行有效的分类处理;(2)对数据流概念漂移的检测和处理;(3)如何利用分布式算法解决大数据的学习问题。基于此,本文对于具有概念漂移的不确定数据流分类问题展开了以下研究工作:首先,了解不确定数据流产生的背景及特点,之后研读并掌握已有的不确定数据的分类算法以及数据流分类算法的核心思想。其次,利用MapReduce技术对大矩阵运算进行优化,提出了能够满足于大量数据处理的分布式极限学习机(Distributed Extreme Learning Machine,DELM),使得传统集中式的极限学习机(Extreme Learning Machine,ELM)能够以更高的效率来适用于大规模流数据处理。再次,针对不确定数据流分类问题,提出了基于分布式极限学习机的加权集成分类算法(Weighted Ensemble Classifier based on Distributed ELM.WE-DELM)。该算法首先建立不确定数据模型,将不确定数据通过建立可能世界模型的方式转换为确定数据的处理,并且可以根据各个基分类器的分类结果动态的调整基分类器的权值,使得在发生概念漂移时,能够删除旧的不再适应新概念的基分类器,同时重新建立能够更加快速准确地收敛于新概念的分类器。然后,根据实际应用中数据流蕴含的概念往往会有一些往复出现的特点,基于WE-DELM算法提出了基于概念缓冲的加权集成分布式极限学习机算法(Concept Buffer Weighted Ensemble Classifier based on Distributed ELM,CBWE-DELM),该方法有效的避免了已有的分类算法一般仅存储当前的概念,当新概念发生时模型每次都需要重新学习的缺点,更加适用于有概念往复现象的数据流的学习。最后通过大量的实验对算法的性能进行了验证。实验结果表明:本算法能够有效的解决的不确定数据流的分类问题,能够解决概念漂移的问题,同时对于海量且高速的数据流具有更高的效率和较高的准确率。
其他文献
伴随着科技的发展,社会生活的信息化程度不断提高,在每天的生产生活中都会产生大量的数据,如何有效地存储并查询这些数据对未来的生产生活有重要意义。近年来云计算与云存储
随着Internet技术在全球范围内的飞速发展,IP网络作为一种最有前景的网络技术,受到了人们的普遍关注。而作为IP网络生存、运作、组织的核心——IP路由技术提供了解决IP网络动态
本文在仔细研究PKI/PMI基本原理的基础上,提出了一种基于PKI/PMI的电子政务安全模型。模型将公开密钥技术应用于网闸,修正了PKI体系在实际应用中的缺陷,让外网代理主机负责将
随着Internet/Intranet的发展,社会生活的各个领域对信息化建设的需求越来越迫切。在这种大环境下,加快办公信息化建设进程是各级政府、行政单位的一项十分紧迫的任务。Struts
本文从国际电信联盟提出的针对电信网的综合统一维护管理新手段——电信管理网开始,详细介绍了TMN的概念。然后,文章主要研究了基于电信管理网的统一网管平台的应用、CAF、UE
面向方面编程技术(AOP)是一项新技术,AOP在Java平台下已经是成熟的技术,但在.Net平台下的功能就相对要弱些,技术也不是很成熟。本文在对AOP技术研究分析后,发现在.NET平台下A
本文分析空间光通信平台振动功率谱,发现振动功率主要集中在几个尖峰点附近,用振动功率谱设计滤波器方法生成了通信平台振动数据。以量子理论为基础,把激光能量和各种CCD噪声都
生物特征识别技术是通过计算机利用人类自身的生理或行为特征进行身份认定的一种技术,其主要有两方面的应用:身份验证和身份鉴别。身份验证是确定当前特征是不是当前对象宣称的
在电信网络告警管理中,告警关联系统是很重要的部分,它是用于分析告警数据的专家系统。然而电信网络本身的复杂性导致获取必要的知识来为某个特定网络构建一个告警关联系统十分
视频会议系统是集计算机技术、通信技术和多媒体技术于一体的远程、异地通信方式。早期视频会议系统基于H.323,但实现较为复杂、开发成本高、扩展性和伸缩性有限。SIP具有简单