【摘 要】
:
在数据挖掘中,聚类算法无需进行学习就能从大量数据中挖掘出有价值的信息。谱聚类算法作为一种经典的聚类算法,其本质是将一个聚类问题转化为一个无向图切分问题,不仅能够处理复杂非凸的数据集,还不易陷入局部最优。但是传统谱聚类算法采用基于欧氏距离的高斯核函数来计算样本间的相似度,不仅对高斯核函数中的核参数较为敏感,还无法正确反映出样本间的关系。针对传统谱聚类算法中相似度度量方法的不足以及计算效率较低的问题,
论文部分内容阅读
在数据挖掘中,聚类算法无需进行学习就能从大量数据中挖掘出有价值的信息。谱聚类算法作为一种经典的聚类算法,其本质是将一个聚类问题转化为一个无向图切分问题,不仅能够处理复杂非凸的数据集,还不易陷入局部最优。但是传统谱聚类算法采用基于欧氏距离的高斯核函数来计算样本间的相似度,不仅对高斯核函数中的核参数较为敏感,还无法正确反映出样本间的关系。针对传统谱聚类算法中相似度度量方法的不足以及计算效率较低的问题,对传统谱聚类算法进行了改进以提高聚类效果,并对改进的谱聚类算法进行了分布式并行化以提高其处理海量数据的效率。本文的主要工作如下。(1)针对传统谱聚类算法中样本间相似度的计算不仅依赖于核参数设置且无法正确反映出样本间关系的问题,提出了一种基于自适应密度敏感相似度度量的谱聚类(Adaptive Density-Sensitive Similarity Measure Based Spectral Clustering,DSSC)算法,旨在提高聚类效果。首先通过计算样本间的欧氏距离来确定每个样本的近邻,接着计算每个样本与其近邻之间的距离标准差以作为密度参数,然后计算每个样本与其每个近邻之间的密度敏感度距离,最后通过计算每个样本与其近邻之间的相似度来构建一个相似度矩阵。在多种生成数据集和UCI数据集上进行了一系列的实验,验证了所提出的DSSC算法的有效性。(2)为提高提出的DSSC算法处理大规模数据集的效率,充分利用Dask+CPU/GPU分布式并行计算平台中的CPU和GPU资源对DSSC算法进行了并行化。首先,在每个工作节点的CPU上并行构造相似矩阵,并将得到的相似矩阵从CPU传输到GPU中;其次,在每个工作节点的GPU上并行构造度矩阵和归一化拉普拉斯矩阵;接着,在每个工作节点的GPU上并行地对归一化拉普拉斯矩阵进行特征值分解,并选取合适的特征向量构造新矩阵;然后,在每个工作节点的GPU上并行执行K均值聚类,并将聚类结果从GPU传输到CPU中;最后,从每个工作节点将聚类结果汇集到主节点。实验结果表明,并行DSSC算法能够充分利用Dask集群中的CPU和GPU资源,提高处理大规模数据集的效率。(3)在Dask+CPU/GPU集群中执行并行DSSC算法对大规模数据集进行处理时需对数据集进行分块,而块大小设置对并行DSSC算法处理大规模数据集的效率有着较大的影响,因此提出了一种基于局部加权线性回归的动态数据分块策略。首先,将一个待处理的大规模数据集划分成用于块大小寻优的子数据集集合和剩余待处理的子数据集集合;接着,合理设置用于块大小寻优的每个子数据集对应的块大小并对其进行分块;然后,在Dask+CPU/GPU集群中依次对用于块大小寻优的每个子数据集进行处理;最后,依据所有已被处理的每个子数据集对应的块大小和所耗时间,采用局部加权线性回归算法较精准地在线动态估计剩余待处理每个子数据集对应的块大小。实验结果表明该策略在一定程度上提高了并行DSSC算法在Dask+CPU/GPU集群中处理大规模数据集的效率。
其他文献
对外贸易是整体国民经济当中不可或缺的重要一环,而众多中小外贸企业是组成国家整体外贸格局的重要基石,因此他们的健康发展对于国家经济运行有着举足轻重的作用。然而面对复杂多变的国际国内贸易环境,以及在新冠肺炎疫情等诸多不利因素的挑战下,许多中小外贸企业由于缺乏经营战略和运营经验而陷入了经营困境。中小外贸企业该如何制定和实施其发展战略,从而突破重围,在激烈的国内外竞争中稳健发展,是当前外贸企业,尤其是中小
围绕以高水平标杆院系创建确立院系党建高质量发展新格局的“两高”目标,从健全党建工作体系、创新高校党建方法、打造党建思政品牌、提升整体宣传效力、推动党建理论跃升、强化示范引领作用六个方面,归纳提出以高水平标杆院系创建引领高校党建高质量发展的实践路径。
<正>统编教材颁布并使用以来,整本书阅读成为白热化焦点。不少青年教师对其产生浓厚兴趣,进行持续、深度的研究,开发出了各种各样的课型。同时,在各种公开展示活动中,整本书阅读课的出镜率也非常高。在我所了解的一线教学常态中,整本书阅读课已成为了教学的宠儿,这无疑都是好事。但我们也发现,一件事情被高度关注后,往往会用力过度。最让
工业企业是碳排放的主要贡献者,其低碳实践对于实现国家碳减排目标起着重要作用,探究不同类型政策如何影响企业低碳实践能够为制定积极有效的碳减排政策提供决策依据。以首个新旧动能转换综合试验区——山东省为例,构建偏最小二乘结构方程模型对山东省高耗能上市工业企业数据进行分析。实证结果表明:规模较大、行业碳排放强度较高、领导伦理型特质较强和具有国有产权特征的四类工业企业对各低碳策略选择的程度普遍较高,且更倾向
通过比较分析大蒜的药用品质,建立大蒜药用质量评价体系。以水分、灰分、水溶性浸出物、大蒜素含量、蒜氨酸含量、大蒜辣素含量和蒜酶活力为指标,分析甘肃民乐、江苏邳州、山东金乡、河南郑州、重庆巫溪和新疆且末、拜城、种马场、虎头镇、大有镇、新地乡等11个产地大蒜的药用品质特征及差异。并通过相关性分析、主成分分析和聚类分析对大蒜质量进行综合评价。结果表明,不同产地大蒜的上述指标都具有显著性差异。相关性分析表明
目的了解男男性途径的HIV感染者/病人合并梅毒感染的情况,分析其影响因素。方法经知情同意,对2017年1月至4月期间,在北京市某医院内由社区组织随访的男男性途径的HIV感染者/病人进行问卷调查,并采血进行梅毒血浆反应素快速试验(RPR)和梅毒螺旋体明胶颗粒凝集试验(TPPA),分析方法为检验,单因素logistic回归。结果 385例HIV阳性MSM完成问卷调查和血清学检查,RPR和TPPA阳性1
<正>小学英语的阅读教学,不能单纯局限在教材内容上,要想学好英语,关键就是要积累,只有在大量的积累下,才能够掌握英语语言的表达习惯、技巧。英语是一门语言课程,要学好英语语言,需重视听说读写,从这些方面掌握语言、语法技巧。小学生在英语学习中常常面临很多的学习难题,如兴趣不高、词汇量少、阅读效率低。
运用AHP分析法(层次分析法),探讨在互联网背景下老年群体的消费行为的影响因素,并将其划分成三个层次,建立层次结构模型,从中发现对老年人网络消费的最主要影响因素。在此基础上,提出解决办法,一是通过社区的老年大学对老年人进行互联网产品和网络使用的培训;二是对于年纪较大的老年人,可以请社区的工作人员或者其子女进行教授或者代为操作;三是加强网络消费的安全建设,比如资金安全、个人信息安全等;四是在网络上销
目的:探究清热活血方对胶原诱导性关节炎(Collagen-Induced Arthritis,CIA)大鼠的类风湿关节炎(Rheumatoid Arthritis,RA)疾病活动指标以及对Janus激酶2/信号转导和转录激活子 3(Janus Kinase2/Signal Transducers and Activators of Transcription 3,JAK2/STAT3)通路的影响,
随着目前我国现代建筑工程行业项目造价管理咨询建设服务模式的不断逐步改善和广泛推广,越来越多的建筑企业以及业主开始希望自己能够获得全过程造价咨询服务,包含一个项目的前期策划、中期实施以及后期竣工及验收评价,前期做到对一个项目工程造价的总体把控,而不再仅仅是单一的前期项目预算和结算资料编审、变更服务、项目造价计算等,这也就必然会直接迫使工程咨询服务公司不断地要求加大自己的企业造价管理咨询和咨询服务覆盖