不确定数据流环境下聚类算法的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:yhl_2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术因其能从海量的信息中提取有用的知识模式而受到人们普遍的关注,而聚类作为其中一种重要的数据挖掘方法,能够从用户给出的描述数据对象的信息中将数据对象分组,从而发现数据分布与属性之间的关系,因此被广泛用于许多应用领域。近年来,随着数据收集技术的进步,人们对数据的认识也逐步加深,数据的不确定性问题日渐引起人们的关注。传统的聚类技术无法直接应用到不确定数据上,因此需要对不确定数据的聚类技术进行研究。然而在大多数应用场合,数据并不都是存放于数据库中,而是以数据流的形式存在。由于流数据具有时间有序、速度可变、数据量巨大等特点,因此对于不确定数据流的聚类技术有着更高的要求。例如在数据流环境下,数据快速到达,要求聚类算法具有较快的处理速度。但当聚类的对象是不确定数据的时候,算法的时间开销很大。本文从缩短聚类时间的角度考虑,提出两种面向不确定数据流环境的聚类算法。文中首先对不确定数据点用MBR描述其实例的分布特征,并证明了不确定数据点和簇的期望距离可以用不确定数据点MBR的中心点和簇心之间的确定距离来表示,且误差不会超过MBR对角线的一半。基于此,提出了一种不确定数据流环境下的聚类算法,通过期望距离范围的上下界排除一些距离较远的簇,从而达到减少计算代价的目的。其次,为了进一步提高算法的性能,文中根据簇内数据点的分布特征提出了簇的MBR的概念,并根据不确定数据点MBR和簇的MBR的位置关系提出了一种新的划分数据点的策略。MBR的位置关系有三种:包含、相交、相离,通过简单的判断不确定数据点MBR和微簇MBR的位置关系,可以将一些距离当前不确定数据点明显较远的簇排除,从而提高聚类算法效率。最后,本文对提出的两种算法进行了实验验证,实验结果表明两种算法均能有效的减少计算的代价,从而缩短聚类执行的时间。
其他文献
随着多媒体技术以及网络技术的迅猛发展,各种数码相机以及功能强大,简单易操作的图像处理软件的广泛应用,使得数字图像的修改越来越简单。在给人们日常生活带来方便的同时,也带来
随着图形处理器(GPU)技术快速发展,GPU已经具有高度的并行性以及灵活的可编程性,这使得GPU在通用计算和并行处理领域得到了广泛研究和应用。GPU作为一种新的计算主体,具有深
随着下一代网络NGN(Next Generation Network)的发展和VOIP(Voice over Internet Protocol)技术的成熟,人们对通信业务的需求不只是简单的语音通话,而是语音、视频、资讯、娱
随着网络技术和数据库技术的快速发展和广泛应用,电子商务逐渐兴起并蓬勃发展起来,随着企业间竞争的加剧,电子商务网站如果想获得持续发展,就必须运用电子商务的在企业产生了
随着图像数字化技术的发展,尤其是互联网技术的快速发展和普及应用,人们在各个专业领域和日常生活中所接触到的图像数量已经达到海量化的规模,其内容也更加呈现多样化,这对有
近些年随着虚拟现实,自动驾驶等新兴应用迅速发展,市场上对三维模型的需求急剧增加。尽管三维数据的获取技术日趋成熟,很多设备能够直接获取真实场景的高精度点云数据,基于图像的
当前,全国电信业全业务运营已进入实施阶段。各电信企业在完成重组、构建竞争新优势的同时,更把目光瞄准未来具有巨大发展潜力的一些新兴战略市场。面向家庭客户提供个性化的
随着社会需求的日益增长和科技水平的日益提高,电话交换技术正处于快速的发展和变革之中。近年来计算机和通信技术都得到了迅猛发展,一场以数字化为核心的技术革命正在改变人
近些年来,随着数据采集技术的日益丰富和迅猛发展,人们可以利用的数据资源急剧增加,对海量数据进行科学组织、存储和管理的数据库技术得到了广泛的应用。另外,随着人们对客观
伴随着移动互联网时代的到来,以及3G业务的不断开展,关于下一代通信网络的研究也越来越深入和多样。根据3GPP最新的发展趋势,未来的演进分组网络EPS将全部采用分组网络,这意