Spark平台下类别数据互信息计算的并行化

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：y412327391

【摘要】

：

针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两

【作者】

：

李俊丽

【机构】

：

晋中学院信息技术与工程学院

【出处】

：

计算机工程与应用

【发表日期】

：

2021年7期

【关键词】

：

列变换并行互信息计算分类数据 Spark平台 column-wise transformation Parallel Mutual-information

【基金项目】

：

国家自然科学基金(61876122),国家自然科学基金青年科学基金项目(61602335),晋中学院1331工程创新团队项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证了算法。实验结果表明,该算法在效率、可伸缩性和可扩展性等方面都达到了较高的性能。

其他文献

NetSight Ⅱ机器视觉系统

M系列NotSight Ⅱ机器视觉系统，使用1.6GHz的处理器，并带有2MB缓存和512MB的高速程序存储器，标准模拟接口和相机连接接口．与IEEE-1294和GigE以太网兼容。对终端用户和系统集成商，

期刊

机器视觉系统系统集成商终端用户软件支持程序存储器512MB连接接口模拟接口设计人员M系列

飞秒级超短脉冲激光器投入广泛应用

期刊

飞秒级超短脉冲激光器应用

强化综合协调能力是提升公共卫生应急管理能力的关键

关于公共卫生应急管理能力的提升,结合此次新冠肺炎疫情的防治经验,可以从以下三个方面来重新审视。一、相关背景和综合协调的意义2020年初暴发的新冠肺炎疫情可以说是人类进

期刊

综合协调能力现代文明社会钟摆式公共卫生应急防治经验

关于对某变35kV母联3500过流保护投退问题的探讨

通过对不同运行方式下母联3500过流保护投退问题的分析，提出了建议，以保证电网的可靠运行。

期刊

母联过流保护可靠运行电网运行方式问题保证

“百年图强——庆祝中国共产党百年华诞理论之光”专栏征稿启事

为庆祝中国共产党百年华诞,《决策与信息》将开设“百年图强——庆祝中国共产党百年华诞理论之光”专栏,欢迎着重从以下几个方面赐稿:1.展现中国共产党一百年来各个发展时期

期刊

习近平新时代中国特色社会主义思想百年华诞苦难辉煌“两个一百年”奋斗目标不忘初心科学发展观自我革命三个代表

郝家梁煤矿井田开拓方案比选

为了科学合理地确定郝家梁煤矿工业场地与井田开拓方案,根据井田地形、煤层赋存情况及外部建设条件,提出了2个工业场地与井口位置选址方案。在此基础上,结合主、副井提升方式

期刊

煤矿工业场地井田开拓方案coal mineindustrial sitemine fielddevelopment plan

单晶硅SOI高温压力传感器的研究

期刊

单晶硅高温压力传感器

松软破碎地层大断面硐室掘砌技术研究与应用

为有效解决松软破碎地层中的大断面硐室施工难题,运用理论分析、数值模拟等手段,对硐室施工进行了研究。通过合理选择大断面硐室施工工艺和支护参数,形成了一套集多项技术于

期刊

松软破碎地层大断面硐室数值模拟分层施工soft and broken stratalarge cross section chambernumeri

我国不失时机加快推进与深化林权改革

集体林权制度改革是继农村土地家庭承包之后,农村生产关系的又一次重大变革。2008年来,根据党中央、国务院的统一部署,按照＂先行试点、循序渐进、稳步推开＂的原则,在各级党委、

期刊

林权改革家庭承包农村土地制度改革集体林权生产关系组织领导党中央

陕北榆林晚霜冻天气过程分析

高空槽引导地面强冷空气南下是2008年4月21日-24日陕北榆林霜冻天气形成的首要原因，当时冷高压中心气压1030hPa以上，最低气温-5．0℃。低层冷平流开始影响时出现剧烈降温，高空冷平

期刊

晚霜冻天气过程分析

Spark平台下类别数据互信息计算的并行化

与本文相关的学术论文