一种大规模分类数据聚类算法及其并行实现

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:wangjuhui19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CLOPE 算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的 p-CLOPE 算法对这一缺陷进行改进.在 p-CLOPE 算法的每一轮迭代过程中,对输入数据集等分为p 部分再排列生成不同顺序的 p !份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在 Hadoop 平台上实现
其他文献
为明确甜菜叶绿素含量与高光谱植被遥感的定量关系,探索建立干旱区甜菜叶绿素含量估测模型,即时监测甜菜生长状况,选取新疆滴灌甜菜(Beta356)为研究对象,利用ASD野外高光谱仪
乳腺癌术后持续性疼痛(PPBCS)是乳腺癌术后常见并发症。手术损伤、术前和术后疼痛、年龄、心理社会因素、遗传因素、神经敏化等均可对PPBCS的发生和发展产生影响。PPBCS的治
税收涉及千家万户,关系国计民生。随着经济社会的高速发展,税收正逐渐成为一个备受关注的热点话题。网民对于税收的态度、意见、情绪等,借助互联网传播与放大,成为涉税网络舆情。由于税收的专业性,涉税网络舆情很可能伴随着大众传媒的误读与公众的误解,给政府部门应对增加难度。涉税网络舆情有广义和狭义之分,狭义涉税网络舆情包含宏观税负、征收管理、税收政策三大类。本文以2007年-2017年的涉税网络舆情相关案例为
目的:探讨应力性骨折的影像学表现,评价MRI在应力性骨折诊断中的作用。方法:回顾性分析2016年1月—2019年5月期间76例在我院诊断为应力性骨折患者的临床资料及影像学特征。结
血管腔内技术的飞速发展和进步,使得腔内治疗方法日益成为外周动脉疾病(peripheral arterial disease,PAD)治疗的首选,但其仍然存在一些治疗误区.笔者结合自身实践经验与典型病
进行了以开设“三性”实验为内容的细胞生物学实验教学改革。几年的教学实践表明,实验教学的改革,提高了学生学习的积极性和主动性,培养了他们发现、分析和解决问题的能力。
首期“江西商品大集”的主题为“生态江西·绿色产品”。近年来,江西省按照“既要金山银山,更要绿水青山”的发展方针,强力推进污染减排工作,制定了一系列“绿色政策”,采取严
对于咬尾卷积码的译码,传统的最大似然译码算法需要遍历每个可能的起始状态对应的咬尾格形子图,译码复杂度过高。循环维特比算法是一种有效的低复杂度次优译码算法。通过对循
在IT服务项目型企业有时存在着在某一时间段内要完成较多电子商务项目的情况,要很好地完成项目任务,需要运用多项目运作环境下的电子商务项目协同管理方法。利用系统工程理论、
目的:口腔颌面部原发性侵袭性纤维瘤十分罕见,本文主要分析口腔颌面部原发性侵袭性纤维瘤的发病情况和临床诊疗措施。方法:回顾性分析我院收治的20例口腔颌面部原发性侵袭性