基于密度的子空间聚类算法研究

被引量 : 0次 | 上传用户:hgjiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域最重要的研究热点之一,旨在将数据对象分组成为多个簇类,有着广阔的应用前景。随着技术进步,聚类分析许多应用领域的数据具有很高的维度。这些数据集中存在大量无关的属性,使得在所有维中存在簇的可能性几乎为零;同时,产生“维度效应”现象:数据分布变得稀疏,数据间距离几乎相等非常普遍,传统的距离度量方式将失去作用。因此,为面向高维大规模数据集的聚类分析寻找适当的方法已经成为研究工作的重点。子空间聚类正是基于上述背景提出的,用于在数据集的不同子空间上查找簇类,具备传统聚类方法很难实现的优点。本文着重对基于密度的子空间聚类算法进行研究,主要工作包括以下几个方面:对聚类分析领域的基本概念做了深入的分析,研究了目前聚类技术中的主要算法,并介绍了面向高维数据的聚类分析技术,同时还给出了常用的子空间聚类算法,分析了它们的优缺点。针对传统方法产生大量冗余簇的不足,本文提出了一种查找无冗余簇的基于密度子空间聚类算法NRSC。该算法使用贪心策略将每个对象自动地分配到维度最大的子空间上,对簇类做了进一步过滤,从而有效地减少了冗余簇,同时也增强了聚类结果的可理解性。针对许多基于密度的子空间聚类算法存在内存消耗太大的困扰,本文提出了一种基于密度和极大团的子空间聚类改进算法DMaxC。该算法使用极大团的方法划分数据空间,采用分治策略解决数据维度很高而内存空间不足的矛盾;利用基于参考点的聚类概念来描述数据空间几何特征,有效降低了算法时间复杂度。
其他文献
近年来,我国进行了高等教育的改革,各高校采取了扩大招生的办法,2002年至2009年以来,我国普通高校毕业生人数不断增加,随着国际金融危机对我国经济的影响,就业形势也日益严峻
甘地和印巴分治联系起来研究,有助于我们更好的了解甘地的思想,也能使我们对甘地在印度民族解放运动中的地位有更好的认识。全文分为四个部分。第一部分,首先对印度教徒和穆
本论文以日本具象绘画发展的历史与现状为背景,通过对其艺术特征、流派与风格、画家艺术创作与绘画理念、作品与技法材料等方面的研究,探讨源自西方的具象绘画艺术在东方艺术传
建立了高效液相色谱法(HPLC)测定黄酒中微量尿素的方法,对高效液相色谱法与传统尿素检测方法二乙酰肟法和对二甲氨基苯甲醛(PDAB)法进行了比较。以黄酒酵母HJ1615为出发菌株,
立体几何是高中数学教学的重要内容,它是在学习平面几何知识的基础上,进一步研究空间图形点、线、面间的关系、性质、画法、计算及其应用的学科,也是数学教学和学习的难点之
乳腺肿瘤超声图像的自动分割,是全自动乳腺肿瘤计算机辅助诊断中的关键步骤,具有重要的临床意义。但是超声图像的成像质量一般比较差,例如斑点噪声、低图像对比度和图像亮度
本研究的研究目的是基于利益均衡原理,研究与新型农村合作医疗制度相契合的供方支付方式的理论模式和实践模式。本研究的资料来源主要包括文献资料和现场调研资料。文献资料包
我国土地盐碱化是玉米生产进一步稳定发展的重要制约因素之一,盐胁迫使玉米幼苗生长受阻,芽势弱,胚根少且短,苗弱,成活率低,严重影响其生长发育及产量。因此,提高玉米品种的
以大豆品种中黄30(早熟)、冀豆17(中熟)和齐黄34(晚熟)单作为对照,在大田条件下,研究马铃薯/大豆套作模式中3个品种生育期叶面积指数的变化及干物质积累的特征,分析套作马铃
淄博市是一个老工业城市,人均水资源可利用量335m3,仅占全国人均水资源可利用量的15%,是我国严重缺水城市之一。萌山水库是淄博市的一座中型水库,具有防洪灌溉、工业供水、生