【摘 要】
:
近年来,随着计算机通信技术和网络技术的飞速发展,出现了一种新的数据模型—数据流。与传统的数据模型不同,数据流的特点是:(1)数据流是无限的,无法完整的存储;(2)数据的传输
论文部分内容阅读
近年来,随着计算机通信技术和网络技术的飞速发展,出现了一种新的数据模型—数据流。与传统的数据模型不同,数据流的特点是:(1)数据流是无限的,无法完整的存储;(2)数据的传输是高速的、实时变化的;(3)数据流到达是连续的、严格有序的;(4)只能顺序的访问一次或有限次。根据数据流的特点,在数据挖掘领域,聚类分析成为热点研究课题。近年来人们提出了很多基于数据流模型的聚类方法,并且得到一定的成果。本课题针对数据流的特点做了以下的研究。首先,对动态滑动窗口的数据流聚类方法进行研究,基于数据流流速实时变化的特点,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,使有限的系统资源得到有效的应用,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用k-means算法进行宏聚类。其次,对基于子空间划分的高维属性数据流聚类进行研究,提出一种快速的子空间划分的数据流聚类方法。在线阶段,提出具有相同边和相同顶点的扩展相连单元。此外,引入了改进的CD-Tree格结构来存储非空单元信息,保持单元之间的位置关系,保持密度单元和扩展相连单元的隶属关系,对过期数据采用衰减函数来减少对当前数据的影响;离线阶段,通过在半径范围内搜索全部微簇的密度单元来产生最终的簇。最后,使用JAVA语言对上述算法进行实现,使用现实数据集KDD-CUP-99和人工数据集对提出的算法进行验证,验证算法的可行性和有效性。
其他文献
随着经济的发展与人们收入水平的提高,越来越多的人希望进行投资金融产品。金融市场的活跃使得原先人工交易方式,特别是短线交易已经渐渐不能适应市场的发展趋势,程序化交易越来
由于HTTP天生的无状态性质,Web程序设计中产生了这样一个问题:在两个连续的用户交互之间会遗忘状态信息。一个交互性的Web应用程序由一组脚本构成,每个交互都包含两个脚本,一个脚
作为远程教育中极有发展前景以及最具代表性的一种学习模式,协作学习正在受到越来越广泛的重视,发展前景令人期待。但在发展过程中,协作学习面临着一些亟待解决的问题:学生缺乏在
地理编码是建立地理位置坐标与给定地址对应关系的过程。地理编码数据库主要记录了各类地址的标准名称、空间坐标的唯一编码,它是沟通抽象数据与真实空间的桥梁。 目前国内
随着计算机图形学和硬件技术的高速发展,把计算机技术应用于动画片的制作,出现了大量计算机动画绘制辅助工具,大大减轻了绘画人员的负担,提高了制作效率。在计算机动画制作辅
目前,第一次全国土地大调查的结束到现在已经有十几年,这段时间中出现了很多土地使用的变化,而这些变化的记录信息非常混乱,再加上传统的土地更新方法效率低下,使得利用计算机来协
随着网络和计算机技术的飞速发展,电子邮件凭借其方便快捷的特性,成为了一种广泛普及的网络信息交流工具,个人、企业和政府机关使用电子邮件进行通讯得到了大范围的推广。然而随
在科学研究和工程应用中的各个领域存在着大量的优化问题,进行最优化方法的研究具有重要的理论意义和实用价值。在现实生活中我们通常遇到的问题往往是多目标优化问题,即要同时
在由计算网格节点和应用网格组成的中国国家网格计算环境下,由于网格节点的访问控制机制,文件只能被特定的节点访问,而不能接受全网格用户的直接访问。当前的网格文件传输服务没
为了在网络中为大量用户提供高效的视频点播服务,基于流媒体的缓存和调度技术,针对不同网络结构以及所要满足的不同服务,本文提出一些新算法。主要贡献和创新点如下:
1.提出