【摘 要】
:
分类作为数据挖掘的主要任务之一,能对海量数据分门别类,方便人们快速检索数据,抽取有价值的信息。根据样本关联类别数量的不同,分类问题可分为单标签分类和多标签分类。多标签分类中,若标签空间中的标签之间有明确的层次关系,则称为层次多标签分类。标签的层次结构分为树形结构和有向无环图结构,目前的研究主要针对树形结构。现有的树形标签结构的层次多标签分类算法,大多不能充分利用标签层次结构信息进行模型的训练,导致
论文部分内容阅读
分类作为数据挖掘的主要任务之一,能对海量数据分门别类,方便人们快速检索数据,抽取有价值的信息。根据样本关联类别数量的不同,分类问题可分为单标签分类和多标签分类。多标签分类中,若标签空间中的标签之间有明确的层次关系,则称为层次多标签分类。标签的层次结构分为树形结构和有向无环图结构,目前的研究主要针对树形结构。现有的树形标签结构的层次多标签分类算法,大多不能充分利用标签层次结构信息进行模型的训练,导致模型的预测性能不够理想,且预测结果不能直接满足层次限制。另一方面,随着大数据时代的到来,越来越多的学者和机构都在着力研究现有算法的并行化,使其能借助分布式并行计算平台有效地进行海量数据集的训练。在上述研究背景下,本文提出了一种基于随机森林的全局层次多标签分类算法RFPCT-HMC,并基于Spark平台实现其并行化。本文主要工作如下:(1)提出了一种基于随机森林的全局层次多标签分类算法RFPCT-HMC。算法在以预测聚类树为基分类器的随机森林模型的基础上,使用层次性的标签权重方法和标签阈值选择策略,充分利用标签层次关系进行模型训练。层次权重为不同层次上的标签赋予一个不同的权重;标签阈值选择策略为每个标签都设置一个不同的阈值,能使预测结果自动满足层次限制。(2)基于Spark平台实现了 RFPCT-HMC算法的并行化。针对数据并行化方面的优化,采用了垂直数据分区方法和数据多路复用方法;针对任务并行化方面的优化,采用不同的任务调度器来调度DAG中的任务。此外,每个基分类器在训练之前还对自己的训练集进行了特征降维处理。该并行化实现不仅提高了RFPCT-HMC算法的可扩展性,使之能有效的用于大规模数据的处理,还减轻了分布式环境中大规模数据集的数据通信代价和负载不平衡问题。
其他文献
随着城市化进程不断加快,城市地下空间开发已是大势所趋。地下空间开发是不可逆的过程,没有章法地随意开发将造成资源严重浪费。由于缺乏前期规划研究,目前国内地下空间发展不平衡和冒进式开发问题并存。合理开发地下空间需要开展地下空间需求预测研究。本文首先在阅读文献与实地调研多个城市的基础上,遴选地下空间开发经验丰富的国家和地区,总结其开发经验,为我国不同城市地下空间开发提供范式。其次总结分析了现阶段我国地下
乌托邦——本意指某种不存在于现实之中的完美之地。在不同历史时期曾经出现过各种各样的乌托邦想象,这些内容各异、影响不一的乌托邦观念共同反映出了人类的一种普遍的精神趋向,即对于理想的社会形态、生活方式的不懈追求。但若置于实践的层面来看,乌托邦似乎又是“空想”、“失败”的同义词,马克思与恩格斯便将早期空想社会主义者的失败实践称为“乌托邦”,并直接将乌托邦置于“科学”的对立面,而这一评价也随着马克思主义的
近些年,随着云服务器的不断普及,越来越多的企业和个人选择将服务器部署在云端,在此背景下,华为CloudBU云运营平台部门为了更好的给用户提供服务,使用ETL(Extract-Transform-Load)技术构建数据仓库来分析用户信息。而云运营平台的运维人员主要工作是负责数据仓库构建过程中的数据传输。但是,在运维人员将离线数据传输到Hive中时,很多数据会出现问题,导致无法使用,甚至会导致数据源和
随着社会、经济的飞速发展,各种科学技术层出不穷,大量的先进仪器设备投入到地质勘探的工作中,许多新的技术被推广和运用到各行各业,而GPS、遥感、影像定位、地理信息系统等现代测绘技术的革新和应用,已经逐步代替了传统的地形图技术,可以有效提高地质测绘的技术水平,并对国家的基础设施和经济的发展起到推动作用。基于此,本文主要分析了现代测绘技术在地质测绘中的应用,以此来供相关人士交流参考。
随着我国正进高速发展时代,制度惯性、城乡迁移、市场化改革、全球化及城市规划策略等多种力量推动了中国城市的社会空间转型,逐渐呈现出愈加明显的社会空间分异现象。土地政策变革、居住郊区化趋势以及产业结构调整等因素都促使以大型社区为代表的郊区住宅如雨后春笋般涌现,成为大都市扩张的前沿,因此大都市郊区逐渐成为社会空间重构和演变极其剧烈的地区。今天的大型社区已经超越了传统意义中的“住区”范畴,更像是一座新城和
三氯乙烯(Trichloroethylene,TCE)是地下水环境中最常被检出的一种污染物质,是一种潜在的致癌物,容易造成长期的环境和健康风险,其去除是亟待解决的一个的问题。液相催化加氢脱氯技术是去除氯代有机污染物最具前景的技术之一。常规的液相催化加氢脱氯技术使用H2作为氢源,但H2的水溶解度低、成本较高、安全性差,在实际应用中会受限制。因此本文选择甲酸/甲酸钠作为替代氢源,因其具有良好的供氢能力
GB/T 17671-2021《水泥胶砂强度检验方法(ISO法)》标准的修订已经完成并于2022年07月01日开始实施,新标准相较于1999版有较大幅度的改变。论文结合相关规范、联系实际对新旧标准的主要变化进行分析比对,供同行应用时参考。
基于神经网络的深度学习算法已经在计算机视觉、语音与自然语言处理等领域取得了突破性的成果,其应用领域包括智能制造、安防、医疗和交通等,涵盖日常生活的方方面面。但是,深度学习模型在实现优越性能的同时往往也伴随着极高的存储空间需求和计算复杂度,而通用计算平台多数情况下并不能满足实际模型部署对功耗、延迟等各方面性能的综合需求。为了加速算法落地应用,研究者们一方面考虑在算法层面,通过模型压缩算法减少模型的存
<正>2018年,“营商环境”这一热门词条首次出现在当年的政府工作报告中,也成为当年的经济类十大流行语之一。为进一步优化营商环境,2018年第一次国务院常务会议专门部署了包括“获得电力”领域在内的多个事项,要求大幅精简审批环节、压缩办理时间,持续提升我国营商环境的国际排名。国家电网有限公司、南方电网公司作为改善“获得电力”的责任单位,在上级的统一部署下,全面开展了“获得电力”便利化改革,并取得了显
目的 探究归脾汤治疗乳腺癌术后气血两虚证的效果。方法 选取2019年7月—2020年3月铁岭市中心医院收治的76例乳腺癌患者,随机分为2组,各38例。2组均接受乳腺癌全切术,对照组术后采用化疗方案,试验组联合归脾汤治疗。比较2组患者的中医症状评分、肿瘤标志物水平、免疫功能及不良反应发生率。结果 与对照组相比,试验组患者术后中医症状评分较低,血清癌胚抗原(CEA)、糖类抗原125(CA125)水平较