聚类分析的新方法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liqing804240
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数十年来,数据挖掘一直是一个热门话题。作为数据挖掘的一个主要技术领域,聚类分析产生了很多算法,并且演化成一个庞大家族。现有的聚类算法可以分为5类:分割算法,分层算法,基于密度算法,基于网格算法,以及基于建模的算法。也有很多算法是结合了两个或两个以上类别,以获得更好的性能。 在聚类分析的处理过程中,一方面很重要的一个问题是如何对聚类结果进行解释。用户希望聚类结果是比较容易解释和理解的,也就是如何为用户提供快捷有效的途径来调节聚类过程得到可理解的结果。为达此目的,两个问题比较关键:1)如何在聚类结果中包含尽可能多的有用信息,比如密度信息;2)如何不损失性能的前提下找到用户希望的结果。 本文相应的提出了第一个算法SDPHC:一个新的基于密度的分割和分层的算法。该算法是一个组合算法。它引入了一个新概念——密度权重,可以使得在聚类中采用人工反馈机制变得比较容易。有了反馈机制,用户就可以根据对数据的理解来对数据分类,而尽管这些数据有可能在空间上分的比较散。同时,通过对参数和聚类结果之间的分析,在参数设置方面引入一个自校技术,它可以节约用户花在最优参数设置方面的时间。理论分析和实验结果均表明该算法在性能和聚类质量方面要优于DBSCAN、PHC等算法。 另一方面,随着网络、存储、处理器等硬件方面的飞速发展,导致了极为巨大的数据库的产生,它们记录了数量巨大的高维事务信息。为了应对这种趋势,日益增长的信息隐私方面的发展要求逐渐为全球所关注,由于数据挖掘的目的就是从大规模数据库中有效的发现不明显但是非常有价值的信息,所以比较容易被误用【51。而个人用户:1)可能不愿暴露自己的特定信息;2)可能不介意给出部分真实信息;3)可能愿意给出的不是真实的但是经过修改的信息。所有的这些情况将导致缺失属性的产生。 本文相应的提出了第二个算法CLINCH:一个有效的挖掘缺失高维数据的聚类算法。CLINCH类似于大部分基于网格的算法,包括一个三步的框架,问题的解决主要在于识别出密集单元,通过逐维处理的方法识别出这些单元的方法。CLINCH在开始的几个维,采用了有效的筛选策略,很多候选被裁剪掉,因此整体的算法开销降了下来;随后还采用了一个预测机制来处理缺失数据的问题。通过实验和复杂度分析,CLINCH比CLIQUE算法要快而且聚类质量基本接近,而比FILV(DBSCAN)不但快而且聚类质量要好。
其他文献
对等计算(Peer—to—PeerComputing)技术自近年以来在学术界与产业界引起广泛的关注,许多基于对等计算技术的文件共享、数据共享、计算资源共享、即时消息传递等应用被广泛地
多媒体技术和网络技术的发展和普及,为数字产品的获取和传输提供了极大的便利,但由于数字产品的易拷贝性和拷贝的高保真性,使得数字产品的盗版问题日益突出,因此,如何有效地对数字
信息管理系统已经深入到各行各业和日常生活中。常见的信息管理系统有单机方式、局域网方式、专线方式(例如银行)和web方式,但这些方式都有其局限性,并不能适应所有的应用要求
计算机网络的迅速发展,使Internet上汇集了成千上万的计算资源、数据资源,人们希望利用对等计算技术把物理互连的网络设备的计算能力、存储能力以及网络带宽等聚集起来,以实
在数据库系统和计算机视觉两大研究领域的推动下,基于内容的图像检索技术已经成为当前的一个研究热点。本文针对这一课题,分别在基于颜色、纹理和形状的检索技术方面进行深入研
在过去的三十年里,软件工程技术得到了快速的发展和运用,这毫无疑问的造就了软件产品的重大改进。然而,面对现在环境和需求的快速持续变化,多数的软件系统仍保持着内在的易碎性和
彩铃业务是“个性化多彩回铃音业务”(Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该项业务由
入侵检测技术是保护网络系统的重要手段之一,基于主机的入侵检测系统主要用于对重点主机实施防护,具有检测效率高和检测准确性高等优点。系统调用是外界进入系统的必经之路,是攻
随着网络宽带化的发展,流媒体作为新兴的媒体形式应用日益广阔,但是其版权问题也日趋突出。流媒体的数字版权管理在这种情况下越来越受到人们的重视,越来越多的公司、组织投入其
民用航空运输在交通运输行业的比重不断增长,使得民用航空的安全水平也越来越受到关注。我们需要采取积极主动的安全检测监控措施,提高现有民用航空领域的安全性。飞行品质监