【摘 要】
:
随着现代科技的高速发展,大数据成为了近几年社会发展的焦点。聚类问题是数据挖掘领域的重要研究课题,聚类分析可以发现数据集的特征,也可以帮助数据挖掘算法进行数据预处理,因此,提高聚类算法的聚类性能成为一项研究热点。层次聚类算法是解决大数据集聚类问题的常用方法,Chameleon算法是一种较为常见的多阶段的凝聚层次聚类算法,算法结构简单,能够处理大型数据集,依据簇间的相似性动态地构建模型。论文在传统Ch
论文部分内容阅读
随着现代科技的高速发展,大数据成为了近几年社会发展的焦点。聚类问题是数据挖掘领域的重要研究课题,聚类分析可以发现数据集的特征,也可以帮助数据挖掘算法进行数据预处理,因此,提高聚类算法的聚类性能成为一项研究热点。层次聚类算法是解决大数据集聚类问题的常用方法,Chameleon算法是一种较为常见的多阶段的凝聚层次聚类算法,算法结构简单,能够处理大型数据集,依据簇间的相似性动态地构建模型。论文在传统Chameleon算法的基础上进行改进,并进行实证分析,验证改进算法的实用性。论文首先研究了Chameleon聚类算法的基本原理和算法结构,发现了Chameleon算法中存在的异常数据无法正确处理的问题,给出了Chameleon算法的改进方法,运用K-medoids算法对Chameleon算法中第一阶段的K-最近邻图进行子簇划分,对数据集内的异常点进行正确的子簇归类,在保证子簇高内聚性的同时降低了异常点的影响,给第二阶段的局部动态模型的构建提供更为精确的子簇,进而得到更加精确的聚类分析结果。其次研究了基于K-medoids算法改进的Chameleon算法的实际应用效果,利用从2018年某证券公司649名证券客户的交易信息数据中提取的6个特征值对改进的Chameleon算法进行实证分析,并与多种Chameleon的改进算法进行对比分析,进一步验证了基于K-medoids算法改进的Chameleon算法的实用性和有效性。
其他文献
人类容易陷入决定论的误区,但决定论是贫困的。道德决定论、理性决定论的背后常常是权力决定论。所以要限制政府权力作用的范围,权力的行使要最大限度地以民间及公民个人的自由
随着地球资源的消耗,非可再生资源的逐渐减少以及污染、雾霾等环境问题日益突出,除了环保组织与政府机构组织的环保活动外,许多商家以及消费者也在积极响应环保号召,例如商家
目的:探讨内皮功能测定对经皮冠状动脉治疗(PCI)的急性ST段抬高型心肌梗死(STEMI)患者的危险因素,及发生主要心血管事件的相关性及预测价值,以指导STEMI患者治疗。方法:我们纳入了2011年7月至2018年7月在吉林大学中日联谊医院胸痛中心行PCI治疗的STEMI患者92例(男性74例,女性18例),术后立即进行光学体积描记法分析指尖脉搏容积(PAV),随访平均(32.01±24.26)个
近年来,随着国内互联网产业的推广与普及,尤其是对移动互联网技术的广泛应用,大大推动了电子银行业务的发展,电子银行业务的客户数量呈现出跨越式的增长态势,电子银行业务在
渠道创新和渠道设计一样,既需要打破常规,才能诞生最有创意的设想,又因为破坏性建设的边界很难把握,反而容易陷入漫无边际地天马行空。就像现有的办公环境,领导和职员的办公区域泾
研究了炭黑增强氯丁橡胶硫化胶的力学性能和压缩Mullins效应的强化效应,探讨了炭黑用量对其压缩Mullins效应的增强机制。结果表明,炭黑增强后的氯丁橡胶硫化胶的屈服强度和模
中国大陆笔记本电脑生产商的一个首要特征是以台资企业为主,台资企业在长三角地区形成了笔记本电脑产业集群。笔记本电脑的生产打破了过去由一个国家完成特定产品全部生产过程
目的:探讨苗药组方萎胃通调汤对大鼠慢性萎缩性胃炎癌前病变的干预作用及可能机制,为萎胃通调汤的临床推广提供实验室依据,促进民族医药理论的传承与发展。方法:将90只SD大鼠
民国以来,随着国家权力深入乡村,新型的基层国家政权和意识形态话语对调解这一高度自治性和民间性的纠纷解决方式产生了深刻的影响:20世纪20年代奉天省的区村长民事案件评议制度
笔者对空降兵某部队营养状况进行了膳食调查.调查采用查账法,计算某部一连1997年1月~3月平均每人每日各种食物的消耗量及各种营养素的摄入量。结果显示平均每人每日多数食物的