含噪动态数据流的分类研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:TeaTempTea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信、计算机技术的快速发展,股市数据分析、天气预测、卫星监测、网络流量监控等多个领域都产生了数据流。由于数据流具有快速、连续与动态变化的特征,传统的数据挖掘技术对之无效。而且,动态数据流存在概念漂移现象,即隐含在数据中的概念可能会随时间变化而发生改变。因此,如何有效解决数据流中的概念漂移成为一个热门问题。而在实际生活中噪声无处不在,噪声数据的存在影响了数据流的分类效果。因此,如何有效地处理存在噪声的动态数据流是一个有待进一步研究的问题。本文对于数据流分类过程中存在的概念漂移与噪声问题主要做以下研究工作:(1)综述数据挖掘与数据流分类的相关技术,对数据流上的概念漂移、噪声问题作详细阐述和分析。(2)对于数据流分类过程中的概念漂移问题,基于“与当前分类模型不符合的实例可能代表了新概念的变化趋势”这一假设,提出一种处理概念漂移的数据流分类算法EWDSCA(Examples of weighted for data streams classification algorithm)。该方法运用实例加权思想,提高可能代表新概念实例在基分类器构建中的影响力,使分类模型能够更加适应新的概念。同时,引入动态权值调整因子来提高算法适应能力。研究表明,与weighted bagging相比,EWDSCA运行效率更高,分类效果更好。(3)在现实世界中,数据流大多包含噪声数据,噪声问题的存在大大影响了算法的分类效果。为了解决这个问题,设计出一种基于密度聚类算法的数据流分类算法FDNDCA(Fast-DBSCAN for noise data streams classification algorithm)。该算法采用快速聚类算法FDBSCAN来过滤噪声,结合实例加权思想,以UFFT为基分类器构建加权集成模型,并引入μ检验方法来检测概念漂移。研究表明,FDNDCA算法在处理含噪动态数据流方面和已有的分类算法相比,分类性能更具优势。
其他文献
由波兰的Pawlak教授提出来的经典粗糙集理论,其是建立在完备信息系统中不可分辨关系之上的,这种分类对数据的完整性和精确性要求很高,并且需要具备离散的属性。然而在现实世
无线传感器网络是由大量微型传感器节点通过无线通信方式形成的一个多跳自组织的网络系统。节点部署作为网络运行的基础,这方面的研究远远落后于其它方面的研究。已有的异构节
谓词加密是公钥密码学中一个新的研究热点。谓词加密是公钥密码学中基于身份加密、基于属性加密、加密数据搜索等一系列研究的延伸和发展。谓词加密可以对加密数据进行谓词评
数据压缩技术是实时数据传输系统研究的核心和重点之一,它对于减少数据所占用的存储空间,提高传输信道的利用率,增强传输数据的安全性具有非常重要的作用。环保数据的在线监
随着优化算法和启发式算法的提出,国内外掀起了研究智能优化算法的热潮。禁忌搜索是一种新的智能优化算法,是由美国科学家Glover教授于1986年正式提出。禁忌搜索(TS)在智能算
随着嵌入式系统的广泛应用,嵌入式实时操作系统RTOS也越来越受到重视,尤其是在工业控制、航空航天、医疗卫生和军用等领域。RTAI (Real-Time Application Interface)是由意大
随着处理器的计算能力的迅速提高、嵌入式技术的迅猛发展和嵌入式系统应用领域的不断拓宽,使得嵌入式软件的规模以及复杂性的不断增长,从而导致了开发时间和费用也在不断的增长
随着科学技术的普及,在家中我们与物体的交互方式以及物体和物体的交互方式正在发生着变化,我们的家正在向着智能家居转变。在过去这些年里,许多新技术都应用到了我们的家中,智能
城市道路交通是智能交通系统的重要组成部分,其最大特点就是交叉口错综复杂,交叉口处的车流量之间相互影响,因此交叉口的通行状况将会直接决定道路的拥堵程度,道路交叉口已经
随着计算机应用范围的不断扩大和Internet的全球普及,在各种应用系统中积累了越来越多的数据,这就很容易造成了“数据爆炸”问题,它已经悄悄来到我们的身边,甚至更严重的“数