关于大维数据的聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:eden_1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘的领域中,通过应用机器学习算法从现有的数据集中获得有价值的信息,其中一种重要的工具就是聚类分析,它是一种无监督的学习方法。近年来,随着计算机的快速发展,需要处理的数据量越来越大。目前,低维的聚类算法已经相对成熟,但受到“维度效应”的影响,经典的聚类算法在应用到高维数据时经常会失效。因此针对大维数据的聚类也成为了聚类分析中的研究热点,隶属于子空间聚类算法的CLIQUE算法是其中一种重要且应用广泛的聚类算法。本文总结CLIQUE聚类算法的优点及局限性,并针对其固定划分网格和用户指定输入参数两方面进行了改进,引入相对熵对数据进行动态网格划分,并给出网格参数和密度阈值的定义,减弱了人为输入的影响,降低算法对于用户先验知识的依赖程度。最后,通过在UCI数据集中选取三组真实数据集对改进后的算法进行模拟,并与原算法及其他经典算法进行比较,应用四种经典的聚类评价指标(P值、F1值、RI、ARI)对结果进行分析。实验结果表明,改进后的CLIQUE聚类算法对大维数据聚类是有效的,可以在一定程度上降低“维度效应”的影响。且改进后的算法不需要用户在聚类前提供网格参数及密度阈值,避免人为选取参数造成的麻烦,同时在聚类效率上有了明显的提高。改进后的CLIQUE算法在一定程度上优于原算法,在大维数据聚类分析的实际应用中存在价值和意义。
其他文献
目的对乳腺肿瘤术后开展疼痛护理干预的效果进行探讨。方法选择我院收治80例乳腺肿瘤手术患者,依据随机数字表法划分为对照组和观察组,每组40例。对照组接受常规护理,观察组
家庭承包制确立以后,农村政策总的目标一直是“坚持和完善家庭承包制基础上的统分结合的双层经营体制”.先后推出了发展集体经济、发展农业社会化服务体系、推进农业产业化三个
研究目的:探究篮球运动员高原训练的研究进展。研究方法:本文采用文献法,通过知网等查阅近十年关于高原训练的相关文章,总结高原训练对篮球运动员的影响。结果:高原训练可以
考虑到客滚船机舱总段结构的复杂性,为确保吊装安全,使用TSV-BLS软件构建总段有限元模型,计算整体吊装时总段的应力和变形、钢丝绳的拉力等,并对吊装方案的可行性进行评估。
为研究关节轴承内外圈摩擦副上微凸体在相对滑动过程中的摩擦热问题,建立半球状微凸体相对光滑平面滑动的模型,对点热源导致的温升进行积分,计算关节轴承内外圈在微凸体接触
"互联网+"时代飞速发展,目前的人力资源管理利用O2O模式将线上线下管理进行结合,互联网建立起来的网络信息服务能够极大地节省人力物力,本文详细讲述"互联网+"时代下的人力资
<正> 笔者在欣赏王维诗的时候,惊奇地发现他的山水诗,大量地运用了方位词,而且大多成为描摹山水的名句。诗人往往只通过几个精当的方位词,就勾勒出一幅特定的优美图画来,形神
污水管道内硫化物的产生和逸散常引起恶臭、中毒和管道腐蚀等一系列管网问题,曝气充氧可以作为一种较为适用的控制污水管道内硫化氢产生和累积的方法.针对曝气充氧控制管网液
大湘南旅游发展的新机遇,结合决定着网络型合作模式是大湘南旅游产业发展最佳模式,要实现网络型合作模式良性运行,就必须找到不同利益主体的动力源,通过合作协调机制完善来有
一种外语教学法流派的原则要在教学活动中通过教学方法、教学模式和教学大纲体现出来。一、外语教学方法外语教学方法是外语教学法流派用来实现其教学目的和任务的具体的教法