流数据的聚类分类算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户：yujing4953

【摘要】

：

近年来,随着信息处理应用的发展,许多应用中的数据是以流的形式产生的,数据呈现出“连续数据流”的形式而不是传统的静态存储结构形式。这些应用领域包括金融证券信息分析、

【作者】

：

邹凌君

【出处】

：

扬州大学

【发表日期】

：

2008年期

【关键词】

：

数据流相关系数聚类自回归模型 Fisher判别分析分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着信息处理应用的发展,许多应用中的数据是以流的形式产生的,数据呈现出“连续数据流”的形式而不是传统的静态存储结构形式。这些应用领域包括金融证券信息分析、网络传输监控、计算机网络安全、通信数据管理、web应用、生产制作、传感器网络等。这些应用产生的数据形式称为数据流。与传统数据库不同,数据流具有如下特点:(1)数据总量的无限性;(2)数据到达的快速性;(3)数据到达次序的无约束性;(4)除非可以保存,每个元素均只能被处理一次。数据流的上述特点对数据流上的挖掘提出了如下要求:首先,算法必须能够进行实时在线挖掘,快速处理每一个元组,并实时输出挖掘处理结果。其次,由于相对于无限规模的数据流而言,内存通常是有限的,这就要求算法的空间复杂度要低,往往需要在数据量的对数范围内。再次,由于算法实时在线挖掘以及对空间复杂度的限制,算法往往只能得到近似解,且需要具有一定的精确度保证。最后,算法要具有较强的适应性,包括对数据流不断进化的底层模型的适应性,处理离群点能力等。学术界己经对数据流上的挖掘问题进行了很多研究工作,但仍存在许多问题尚待研究和解决。本文研究了数据流上的聚类问题和分类问题,做了以下一些工作: (1)提出了基于相关系数的多数据流聚类算法。使用相关系数作为数据流间距离的度量,将有相同变化趋势的数据流聚为一类。我们使用衰减系数来使得新数据比旧数据在聚类结构中有更大的重要性,采用更新时间片段的机制很好地反映了聚类结构的变化过程。我们采用动态k-means,不断的试探性地调整聚类的个数,通过比较聚类质量,选取最优的类的个数,提高聚类质量。此外,我们基于相关系数的度量,提出了另一种满足用户需求的聚类算法框架。算法分为前台和后台两个部分:在前台部分,我们提出了一种新颖的保存汇总信息的机制;后台阶段,根据用户的聚类请求,读取相应长度的信息进行聚类。满足了用户对不同长度的聚类需求。(2)提出了一种基于谱分量相似度的多数据流的聚类算法框架。使用自回归模型对数据流序列作谱分析,把数据流表示为谱参数的和。通过将相位设为零后,使用谱分量信息计算两条数据流之间的相关性。(3)提出了一种基于网格密度的数据流聚类算法GDCS算法。算法采用了在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,在后台离线层不断地更新单元格的密度并将网格单元聚成类。此外,算法适时检测和剔除孤立点以改进系统的时间空间有效性。实验表明,算法具有更优的聚类效率和聚类质量,能发现任意形状的类,且能有效识别实时数据流的变化行为。(4)基于改进的Fisher判别分析方法,我们提出了一种新的数据流的分类方法。改进的Fisher判别准则能同时适用于类内散布矩阵奇异和非奇异两种不同场合。提高了分类的速度,更好的满足了流数据处理的要求。使用最新滑动窗口中的样本不断重复构建分类模型,能及时反应概念的漂移。

其他文献

从脾论治餐后高血糖体会

糖尿病反复餐后血糖升高具有潜在的危害性，诸多并发症也会相应发生，故当加以注意。

期刊

餐后高血糖从脾论治血糖升高糖尿病并发症

小型无人直升机控制系统仿真平台的研究

无人机是一种以自身程序进行控制或无线电遥控的可重复使用的不载人飞机,具有造价低、使用方便、应用范围广等特点,受到越来越多国家的重视。但无人机的控制非常复杂,存在许

学位

无人机控制系统OpenGL仿真平台

喉咳净治疗喉源性咳嗽56例

2002年6月-2005年6月，笔者自拟喉咳净治疗喉源性咳嗽56例疗效较好，现报告如下。

期刊

高校教师岗位设置研究

随着我国高校人事制度改革的不断深入,教师管理正逐步从身份管理向岗位管理转变。岗位设置是实行岗位管理的第一步,是高校教师聘任制的基础。科学的岗位设置能够反映学校的发

学位

高校教师岗位设置职业发展

中西医结合治疗支原体感染不孕67例

2001～2003年笔者用中西医结合疗法治疗支原体感染不孕取得较好疗效,现介绍如下.1 临床资料共67例,均为已婚生育妇女,年龄23～39岁.其中原发性不孕15例,继发性不孕52例;曾自然流

期刊

支原体感染不孕中西医结合治疗中西医结合疗法疗效

论水利工程管理现代化与精细化建设

文章通过对水利工程管理现代化与精细化概念与内涵以及现代化与精细化建设的主要内容的简要阐述,从而对实现管理现代化与精细化的基本途径进行了一定的探究,希望能够对后来者

期刊

水利工程现代化与精细化探究

综合治疗单纯性肥胖症86例

笔者采用电针、推拿、饮食疗法治疗单纯性肥胖症86例，取得满意疗效，现报告如下。1临床资料86例均为门诊患者，其中男34例，女52例；年龄最小16岁，最大65岁，平均42．5岁；病程最短1年，最长32

期刊

单纯性肥胖症综合治疗疲乏无力脾虚湿阻型胃热湿阻型肝郁气滞型脾肾两虚型阴虚内热型

醉翁之意不在酒

中国传统绘画的“写意精神”,以精湛的东方思辨哲学为依托,通过精炼自由的笔墨表现,在写出对象形神的同时,以抒发作者的胸臆为最终艺术目的。这种具有高度内涵的艺术宗旨,体

学位

梁楷泼墨人物画禅意写意精神畅神

中西医结合治疗妊娠期肝内胆汁淤积症60例

2003年1月-2004年12月，我们采用中西医结合方法治疗妊娠期肝内胆汁淤积症（ICP）60例疗效较好，现报告如下。1 临床资料共120例，均为住院病人。诊断标准为孕中晚期出现全身皮肤瘙痒，无

期刊

妊娠期肝内胆汁淤积症中西医结合治疗中西医结合方法肝炎血清标志物皮肤瘙痒血清总胆汁酸平均年龄临床资料住院病人孕中晚期

我国建立国家人权机构的建议

建立国家人权机构不仅是履行国际人权条约之义务,也是实现国内人权保障的必要途径。本文从我国人权保障事业的现状出发,分析了人权保障工作面临的困境,提出建立国家层面的专

期刊

人权外交人权保护国家机构

流数据的聚类分类算法研究

与本文相关的学术论文