Spark平台下类别数据互信息计算的并行化

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:y412327391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证了算法。实验结果表明,该算法在效率、可伸缩性和可扩展性等方面都达到了较高的性能。
其他文献
M系列NotSight Ⅱ机器视觉系统,使用1.6GHz的处理器,并带有2MB缓存和512MB的高速程序存储器,标准模拟接口和相机连接接口.与IEEE-1294和GigE以太网兼容。对终端用户和系统集成商,
关于公共卫生应急管理能力的提升,结合此次新冠肺炎疫情的防治经验,可以从以下三个方面来重新审视。一、相关背景和综合协调的意义2020年初暴发的新冠肺炎疫情可以说是人类进
通过对不同运行方式下母联3500过流保护投退问题的分析,提出了建议,以保证电网的可靠运行。
为庆祝中国共产党百年华诞,《决策与信息》将开设“百年图强——庆祝中国共产党百年华诞理论之光”专栏,欢迎着重从以下几个方面赐稿:1.展现中国共产党一百年来各个发展时期
为了科学合理地确定郝家梁煤矿工业场地与井田开拓方案,根据井田地形、煤层赋存情况及外部建设条件,提出了2个工业场地与井口位置选址方案。在此基础上,结合主、副井提升方式
为有效解决松软破碎地层中的大断面硐室施工难题,运用理论分析、数值模拟等手段,对硐室施工进行了研究。通过合理选择大断面硐室施工工艺和支护参数,形成了一套集多项技术于
集体林权制度改革是继农村土地家庭承包之后,农村生产关系的又一次重大变革。2008年来,根据党中央、国务院的统一部署,按照"先行试点、循序渐进、稳步推开"的原则,在各级党委、
高空槽引导地面强冷空气南下是2008年4月21日-24日陕北榆林霜冻天气形成的首要原因,当时冷高压中心气压1030hPa以上,最低气温-5.0℃。低层冷平流开始影响时出现剧烈降温,高空冷平