一种面向大数据的快速自动聚类算法

来源 :计算机应用研究 | 被引量 : 12次 | 上传用户:SilentWoolf_1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在行列降维的基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法,实现了快速自动聚类。在多个不同数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,与其他聚类算法相比,有效地提高了运行速度
其他文献
近年来,字符串匹配问题被不断扩展。其中,具有代表性的是在模式中引入可变长度的通配符,称之为PMWL问题。针对此问题,已有工作分析了在不同的模式特征下,匹配数Ω随文本长度增加呈指数级增长。同时考虑文本分布特征和模式特征,建立了期望模型E(Ω)=n Dπ(P),其中n为文本长度,D为模式中各通配符跨度的乘积,π(P)为基于字符分布的模式出现概率。实验部分,在人工随机数据和DNA真实数据上验证了E(Ω)
目前关于流识别与分类的主流技术是基于统计学方法,其核心环节是提取有效的特征属性集,但这种方法的假设条件是,特征互不相关、数据也互不相关。正因为这种假设的不合理性,使得分类效果和识别性能有限,引入以数据相关性为核心的多重分形理论,从根本上摈弃独立假设的局限性与狭隘性,实现流的有效分类。为此,定义并论证流的分形谱,在此基础上推导流的估计谱,然后在定义的核域内基于灰色关联度进行估计谱分析,继而脱离特征提
针对遗传算法(GAs)收敛速度慢、易于陷入局部最优等不足,以逆变器PWM最优控制序列为目标,提出了一种改进的免疫遗传优化算法(IGOAs)。该算法设计基于单相全桥逆变器输出电流与参考
针对人脑实时变化的特性,为了更好地观测和描述人脑网络的动态特征,在基于功能磁共振成像的脑功能网络重构技术基础上,给出了一种人脑网络动态特征辨识方法。首先利用同步多维数据流的即时更新能力,将在静息态功能磁共振成像数据采集区间上的血氧水平依赖信号由大时间序列分解重构为每个采样点上的小时间窗口序列,构建连续时间点上的状态观测窗口,从而实现对人脑功能共振信号的特定时间状态辨识;然后运用相关分析对状态观测窗
针对高光谱图像的分类问题进行了研究,提出一种基于联合协同表示(JCR)与支持向量机(SVM)模型的决策融合分类方法。首先采用联合协同表示模型对样本与字典进行多元素分解并分别进行相应的协同表示,自适应地学习多元素的残差权重并进行线性加权;其次用灰度共生矩阵计算出的统计特征量来训练多类SVM分类器;最后建立一种乘法融合规则将JCR与SVM相结合。在两个标准数据集上的实验结果表明,该方法比其他方法具有更
针对传统串行混合PVS(principal variation search,主要变例搜索)算法的计算量大、执行耗时长和无法利用多核资源的不足,提出了一种基于Open MP(openmulti—processing)的并行混合P
针对频繁出现的数据冗余、数据复用效率低下等问题,将列存储方式结合并行处理机制对数据复用策略进行优化。构建了基于MapReduce的数据复用并行化处理模型,利用改进型CSM模式匹配算法结合数据挖掘过程中的数据筛选算法,提出并行化数据复用算法。该算法利用数据属性的模式匹配确定属性列之间的对应关系,使用数据检测方式验证属性列数据复用的可行性,从而进行属性列数据筛选,实现并行化的数据复用策略。在大数据环境
为了提高社团发现的性能,提出了一种交互迭代式的多尺度社团发现算法。将网络中的社团定量描述为邻居节点、外来节点和重叠节点多个尺度的线性组合,并针对每个尺度给出了相应的