高维分类属性的子空间聚类算法研究

被引量 : 0次 | 上传用户:acmilanno1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要研究内容,也是数据挖掘研究领域中的一个难点。其中对高维数据空间的分析更是研究的热点。由于“维噩梦”现象的存在,高维数据不可能在全维空间密集,并且两个数据点间的距离变得几乎等同,因此很难再通过距离来区别数据点是否相似,从而绝大多数传统聚类算法在处理高维数据空间时都无法得到理想的效果。目前,子空间聚类是高维大规模数据聚类的主要解决方法。在高维数据研究领域中,分类数据的处理一直是研究者所面临的巨大挑战。传统子空间聚类算法主要针对连续性数据的聚类,难以处理高维分类属性数据集。通过对常用子空间聚类算法分析发现,在确定簇的子空间时都需要多次扫描数据库,导致了算法的时间效率不高。我们发现子空间的确定与关联规则中频繁模式的挖掘具有相似性,利用频繁模式增长方法FP-Growth(Frequent Pattern-Growth)只需扫描两遍数据库就可以得到所有信息,从而找到所有频繁模式。本文提出了一种处理高维分类数据集的子空间聚类算法(FPSUB)。该算法首先将分类数据集转化为事务数据集,将子空间聚类问题转化为寻找最大频繁项集问题。FPSUB利用压缩了所有关联信息的FP-Tree(Frequent Pattern-7ree)结构来存储数据集信息,高效的挖掘出所有属性值的频繁模式,即子空间,然后利用这些子空间进行对象聚类,还可以根据用户需求对聚类结果进行处理,而无需给定初始簇的数目。本文将该算法同其他算法在真实数据集上进行了实验比较,由实验结果可以看出FPSUB算法比其他算法具有更高的准确度,对高维分类数据集的效果更为明显,说明该算法在处理高维分类数据集时的有效性和可行性。最后在这些数据集上对各聚类算法进行了时间开销的比较,从而更好地说明了FPSUB算法的高效性。
其他文献
应用结构的线弹性理论 ,考虑桥面铺装层的功能要求 ,对铺装层的受力状况进行了简化 ,并根据实际状况提出了若干假定 .在此基础上 ,提出了以梁板体的最大弯矩为基础 ,以桥面铺
本文运用1998—2012年中国高技术产业5大行业15个细分行业的面板数据,构建超越对数随机前沿生产函数模型,将技术创新过程分解为技术研发与技术成果转化两个阶段,实证分析了自
<正>如果从20世纪70年代开始算起,项目环评工作在我国已经开展了30多年。2012年年初,国务院法制办决定将1998年《建设项目环境保护管理条例》纳入行政立法规划进行修改,力图
目的探讨幼儿园手足口病发病情况及预防控制措施。方法随机选择本区5家幼儿园作为研究对象,对比分析2014年4—6月各家幼儿园幼儿手足口病的发病情况,并探讨预防控制手足口病
目的:探讨手足口病患儿的临床护理方法及预防。方法:选取2013年3月。2014年3月在河源市人民医院接受治疗和护理的86例手足口病患儿的临床护理资料进行回顾性分析。结果:86例手足
<正>四川省成都市锦江工业园区聚集着我们所熟知的四川知名印刷企业,如成都博瑞传播股份有限公司印务分公司、四川日报报业集团印务公司、四川新华彩色印务有限公司等。在这
法官是依法行使国家审判权的专业人员,法官职业角色是指法官职业人员的权利、义务规范与行为模式。长期以来,我国法官职业角色存在认识不清、定位不准、管理混乱、官僚化、行
接受继续教育,是教师的一项基本权利,是教师学习权、发展权的具体体现,也是建设学习型学校、学习型教师队伍的现实要求.然而,调查分析告诉我们,教师的这一权利并没有维护好、
【正】采绿与相思 在《诗经》中描写人采取某种绿色的植物,成为表达相思之情的固定套式。不管是采卷耳、采薇菜,还是采葑莱、采蓝草,都是相思的前奏曲,暗示出一种强烈、深沉
在国际传媒业高度发展的当今社会,传媒影响着人们信息的采集以及价值的判断。但媒体中新闻伦理丧失的现象并不鲜见,这就对高校新闻学教育中新闻伦理教育提出了要求。培养学生