【摘 要】
:
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案.将海量高维的数据映射到一个
【基金项目】
:
国家自然科学基金(61402053),湖南省科技计划(2014SK3080),湖南省教育厅优秀青年项目(148005)
论文部分内容阅读
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案.将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数.又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率.实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好
其他文献
现代化科技水平的快速更新,计算机技术也拥有史无前例的进步,在提倡办公自动化的前提下,计算机成为办公操作过程中贯穿始终的工作手段,这大大发展了办公自动技术为核心的计算
中国科学院战略研究系列报告——《创新2050:科技革命与中国的未来》绘制了我国未来50年在能源、人口健康、空间与海洋、信息、国家与公共安全等18个重要领域的科技发展路线图
氧化石墨烯具有的层状单原子以及一个庞大的二维结构,能够连接各种有机、生物分子进行化学修饰.并且促进了在生物体系的实际应用.氧化石墨烯优于其他碳纳米材料,是因为它所拥有的
在对湖北地区部分地方政府决策的现状及发展态势调查研究的基础上,总结了各地政府在进行民主科学决策方面所进行的一些有益的探索和经验,并针对当前地方政府决策机制中出现的
世界已经进入信息化时代,知识经济的全球化、人才竞争的全球化已是世界潮流,为了抢占经济科技的制高点,世界各国都在积极调整人才战略,人们已充分认识到:国际上的竞争实际上
美国通用电气公司(GE)全球研发中心混合动力系统研发团队成功开发小一种双电池系统.这种由高容量钠电池和高功率锂电池共同驱动的新系统.将加速公交巴士、货运卡车和其它大型车辆
本文首先对绩效管理进行理论研究,详细阐述了绩效管理在企业管理中的目的及必要性,通过分析绩效管理在企业中的定位和设计内容[1],结合赤峰新城热电公司目前所处的实际情况,
品牌社群是一个新的消费现象,品牌社群的形成也是消费社会的一种发展趋势.目前,品牌社群的实践应用和理论研究被广泛关注,关于品牌社群的相关文献,梳理和分析研究成果发现,其
江泽民同志在阐述'三个代表'重要思想时,提出了'第一要务'思想.这一思想有其丰富的内涵和要求,具有鲜明的时代特色和重要的现实意义.
国家863计划“十二五”重大专项“大功率风电机组用轴承钢关键技术开发”课题在秦皇岛燕山大学正式启动。燕山大学将承担大功率风电轴承钢新钢种及热处理工艺制定等核心关键