数据流聚类的分析与思考

来源 :课程教育研究·上 | 被引量 : 0次 | 上传用户:harite
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】数据流聚类是目前国际数据库和数据管理领域的新型研究热点,综述了数据流聚类的研究进展,在介绍数据流聚类的相关理论和常用技术的基础上,探讨了目前基于聚类的数据流演化国内外研究的状况,最后展望了将来可能的研究方向。
  【关键词】数据流 聚类 交互式数据
  【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2014)04-0236-01
  一、数据流及其聚类
  在线交互式数据分析与处理的难点在于从多源异构,复杂内联和动态演化的角度构建新的数据处理策略与方法。基于在线数据获得的知识通常具有不确定性、不完整性、不协调性和不恒常性等特点,对在线数据进行提炼、排疑、融合、重组等处理,结合数据的动态变化规律定性和定量地分析隐藏在数据中的知识演化规律,从而为提高数据的应用价值提供解决方案和技术支撑。
  在线交互式数据处理应该具备在线短的时间内,有效地整合与调度资源、数据源之间彼此关联、快速演化形式、进而提出在用户体验方面与之前业务截然不同的表現,适应在线信息服务的灵活性和快速演化的要求。基本的动态数据模型有三种:1.动态模糊数据模型DFDM;2.动态模糊数据的扩展模型EMDFD;3.动态模糊关系数据模型DFRDM。
  随着时间的变化,数据的统计性质往往会发生变化,即数据的分布是随时间而变化的,这也被称为“分布漂移”。造成这种分布变化的因素可以分为两种,一种是数据本身的本质“概念”变化,另一种是噪声的变化,如在不同的时刻,搜集数据时条件不相同,数据噪声也不相同,在这样的数据上的聚类就是一个新问题——演化聚类。在数据流上进行聚类,其基本任务就是要在对当前数据进行聚类的同时,随着新数据的不断流入,动态地调整和更新聚类的结果以真实反映数据流的聚类形态。这种在线的增量聚类使得常规的聚类技术难以在数据流上直接应用,算法必须要满足如下要求:1.内存限制。由于内存容量有限,不可能将数据量庞大的数据流全部存储于内存,再进行聚类。在内存中只维护一个反应当前数据流特征的概要数据结构是目前常用的技术;2.实时性。数据流聚类要求具备很短的响应时间,能够响应anytime的用户聚类请求,要求算法处理速度快;3.单遍扫描或者有限次扫描。在对数据流进行聚类时,只能按数据点流入的顺序访问一次或几次。以上只是基本要求,对一个搞笑的实时数据流聚类算法来说,还必须考虑:1.聚类簇数事先未知。算法不可能预知数据流将会被分为几个聚类簇,不但如此,随着新数据不断地流入,聚类簇数目和状态都在不断地变化;2.对孤立点的分析能力。由于数据流的不断流动和进化,当前时间窗口内的孤立点,有可能随着新数据的加入变成一个新聚类簇,也有可能仍然是孤立点而被剔除,聚类算法必须能对这一情况及时鉴别和处理;3.聚类形状任意。传统的基于欧式距离的相似度准则易于产生球形聚类,真实数据流所隐含的聚类簇一般包含很多非凸形状的聚类,算法必须具备识别任意形状聚类的能力。
  二、目前国内外研究状况分析
  在演化聚类中,算法最终的目的是要为每个时刻的数据给出聚类结果,该结果不仅要求能够把当前时刻的数据划分的很好,还要求各时刻的聚类模式在时间轴上保持一定的连续性。聚类结果应保持时间轴上的连续性是演化聚类问题中很重要的一点,它来自于实际应用的需要。在实际应用中,这样的性质能带来很多益处。演化聚类算法可以是在线的,第一个在线的演化数据聚类方法是CHAKRABARTI D等在evolutionary clustering论文中提出。他们在静态聚类的损失函数上增加一个时间损失项,每一个聚类都被匹配到上一时刻距离最近的那个聚类,把所有这种配对的聚类之间的距离相加作为时间损失。这种启发式最近匹配方法可能不稳定,会对聚类中心小的扰动十分敏感。
  在研究中,其中包括两种数据形式:1.与传统的学习问题相同,数据样本被表示为共同的有限维特征空间中的向量。2.关系型数据。数据样本没有自身的特征表示,而只有样本之间的链接关系,这样的数据实际构成一个图,图的结点就是一个样本点,而随时间推进,结点之间的链接关系会发生变化,之前存在的链接可能消失,之前没有的链接可能建立。在非参数贝叶斯方法中能够发现多个关联演化子集中的复杂演化模式,包括聚类的出现、变化、消失以及在不同子集之间的传播,而且,在该方法中,所有的聚类数都是从数据中自动学习,不需要人为指定。另外,在马尔可夫跳转模型中不难发现难点在于如何定义“状态”以及不同时刻之间的转移矩阵。该方法采用了传统的优先混合模型,需要用户指定每一时刻的聚类数目,属于参数化方法。
  在最近的数据流聚类研究中,有将多种原有技术进行结合使用,也有很多新颖的方法不断出现,其中受到广泛关注的3类方法是基于网格的数据流聚类技术、子空间聚类技术、混合属性数据流聚类,代表了当前数据流聚类研究的主流方向。
  (一)D-Stream算法
  网格聚类首先将数据局空间网格化为由一定数目的网格单元组成的网格结构,然后将数据流映射到网格结构中,应用类似于密度的方法,形成网格密度的概念,网格空间里相邻的高密度网格的集合代表一个聚类,聚类操作就在网格上进行。
  (二)GSCDS算法
  最近的研究中,子空间聚类技术也被借鉴到数据流模型,最近公布的GSCDS算法就是一个代表。子空间聚类算法是一类在数据空间的所有子空间搜寻聚类的方法,根据搜索策略不同一般分为自底向上的模式和自顶向下的模式。GSCDS算法充分利用自底向上网格方法的压缩能力和自顶向下网格方法处理高维数据的能力,将它们结合起来应用于实时数据流。
  (三)HCluStream算法
  真实数据流一般具有混合属性,全连续或全离散属性的数据流在现实中几乎不存在,而目前大多的算法仅局限于处理连续属性,对离散属性采取简单的舍弃方法。为了使算法有效处理真实数据流,有专家学者提出了一种基于混合属性的数据聚类算法HCluStream。
  三、未来集中研究的几个方向
  针对在线数据实时分类的研究,将在线数据流进行整合,从而应用到具体问题中。这些数据流中往往包含多种类型的数据,不仅是数值型数据,还包含其他类型的数据,因此该算法能对这些数据类型进行实时分类。在线交互式数据具有不确定性,不稳定性等特点。不同类型的是数据,例如在线视频流,各自具有不同的特点。从解决实际问题的角度出发,需要对这些多源异质数据源特性进行深入分析,但是目前研究中对多源异质数据源的特征提取考虑较少。其主要原因是对这些数据流对时间的要求很高,数据特征不明显、并且数据量巨大,进行分析有很大的难度。针对动态数据分析进行抽象建模是解决问题的关键。目前针对在线交互式数据问题的研究中,常见的解决思路是将数据提取后进行静态分析,再利用相关的成熟理论和方法进行求解,不能实现真正意义上的是实时性,这样建立的模型存在的一个主要问题是为了模型的标准化,忽略了一些实际问题要素。
  未来的研究会集中在以下几个方面:第一,基于资源约束的自适应实时数据流聚类。主要针对无线传感网络等资源约束环境进行数据流聚类。第二,高维度实时数据流的聚类。大多数真实数据流都具有高维特性,高维空间中对象分布稀疏,噪声不易识别,是一个较难解决的问题,也给聚类带来严重的障碍。第三,分布式环境下的多数据流实时聚类。在分布式环境中,数据流广泛分布于分散的、异构的数据源中,研究新的技术使其在分布式环境具有更好的健壮性和更高的效率是一个亟需解决的难题。
  参考文献:
  [1]金澈清,钱卫宁.流数据分析与管理综述[J].软件学报,2004,15(8);1172-1181.
  [2]周晓云,张柏礼.高维数据流聚类及演化分析研究[J].计算机研究与发展,2006,43(11):2005-2011.
其他文献
【摘要】对于初中生物教学而言,立足于实验的基础可以有效提高学生的学习兴趣,提高学生对于生物知识的直观理解力。同时也可以让学生在实验中得以锻炼其科学精神,提高其动手能力。  【关键词】实验教学法 初中生物 教学  【中图分类号】G633.91【文献标识码】A 【文章编号】2095-3089(2014)04-0166-01  一、初中生物中的实验教学法  本文中所提到的实验教学法是一种探究式学习方法,
期刊
【摘要】本科生就业难的问题日益突出,而高校专业设置与就业市场的脱节现象以及本科生对自身主观能动性和本专业课程设置的理解偏差,导致社会上对大学教育模式的诟病。大学向社会输送人才需要落实“三步走”战略,即夯实公民教育,培养由理论知识到工作能力的转化能力并最终引导学生进入就业市场。实践证明,学生充分调动能动性,高校积极培养转化能力,企业充分落实职前培训,是应对高校人才培养模式与就业市场之间脱节的有效策略
期刊
【摘要】从深层次来分析,所谓教学其实就是一场社会实践活动,在生活实践中对受教育者进行教育,从而发生认识对实践的反作用。同时,生物学科是一门与人类生活有着密切关系的学科,教师要想更加圆满地完成中学生物教学任务,学生要想学习好生物,就需要将生物与生活联系起来,对生物进行生活化教学,以助于学生意识到生物学科的实际意义。  【关键词】中学生物 生活化 实践  【中图分类号】G633.91【文献标识码】A
期刊
【摘要】没有爱就没有教育,爱心是班主任工作的基石。教师要把爱洒向每一个孩子的心田。我们不但要关心每一个遇到困难的学生,更重要的是,面对千差万别的学生,我们应该看到每个心灵的闪光点;要尊重孩子,不要急于对他作出好与坏的评判;更不要被“恨铁不成钢”的情绪蒙蔽了双眼。应该用细心、爱心和耐心去开发每个孩子心灵深处那无限丰富和美好的世界。  【关键词】爱 赏识 耐心  【中图分类号】G635【文献标识码】A
期刊
【摘要】本文针对文科生数学学习困难的现状,提出先从重塑学生的数学学习心理入手来解决学生的数学学习问题。文章结合自身的实际做法,主要从文科生的数学老师观、数学学习的自信心、学习兴趣、学习习惯、学习意志、学生的个体差异及家长的期望几个方面进行阐述。  【关键词】文科生 心理  【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(2014)04-0146-02  高中文理分班时
期刊
【中图分类号】G45【文献标识码】A 【文章编号】2095-3089(2014)04-0192-01  人的思想是通过语言来沟通的,格言警句是人们在生活中不断总结加以提炼而给以人启示和教育,内涵富有哲理。学生的成长离不开教师的教导。有其师,必有其弟子。古人曰:圣人无常师,师之所存,道之所存也;师高弟子强等,充分说明教师的言传身教,都潜移默化地对学生起着一定的影响。  一、懂得学会做人的道理  教师
期刊
【摘要】课堂教学是教育教学活动的主要形式,随着新课程的大力推进和深化,教学模式的不断完善,教师要不断探索科学方法,进一步优化课堂教学过程,积极贯彻素质教育,让课堂教学成为实现最高效率和最大效益的高效课堂。教学的高效性就是指通过课堂教学活动,教师在单位时间内高效率、高质量地完成教学任务,学生有超常收获,有超常提高,有超常进步,获得高效益发展。教学是一种有目的的讲求效益的活动,构建“高效课堂”应是每一
期刊
【摘要】在这个快节奏的时代,大学生学习兴趣和学习压力正呈反比例不断增高,这要求面向成人的高等教育也要充分考虑学生兴趣。怎样充分调动大学生学习的积极性、提高课堂效率、从根本上解决学生学习的动力应是每个高校教师认真思考的问题,归纳起来应包括三方面,那就是较高的专业知识水准、灵活多变的教学方式和热情洋溢的教学态度。  【关键词】大学生学习兴趣 勤奋 智慧 热情  【中图分类号】G426【文献标识码】A
期刊
【摘要】本文分析了项目化教学改革对于《模拟电子技术》这一门基础课教学的必要性,同时针对该课程中存在的问题,提出了在课程结构、课程内容和教学评价三方面进行项目化改革的措施。  【关键词】模拟电子技术 项目化教学 任务驱动  【中图分类号】G642 【文献标识码】A 【文章编号】2095-3089(2014)04-0217-01  随着职业教育的发展与壮大,教育质量就是高职教育的生命线,因此,教学改革
期刊
【摘要】为适应高等教育对创新人才的要求,基于中南林业科技大学土壤学课程教学中存在的问题,以培养创新型人材的教学理念为指导,对土壤学课程的教学内容、教学方法、考核方式进行了改革探索, 通过通式化教学体系的建立;课程的专业特色教学的强化;实验实习综合指导书的新编;双语教学的尝试;网络课堂教学平台的建设;实验实习教学模式和成绩的考核方法的改进等措施,取得了良好效果,以期更好地服务于生物资源与环境类创新型
期刊