Spark平台下的多标签并行演化超网络

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ppp9904140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,在现实世界中也具有越来越重要的潜在应用价值。在多标签学习中,一个样本同时隶属于多个标签,因此多标签学习的关键挑战在于预测的标签空间为指数级,现有的解决方法主要集中在如何利用标签相关性来促进学习过程。然而,大部分方法没有充分考虑多标签数据的固有属性,即标签类别不平衡。另一方面,大多数多标签学习算法无法很好的处理大规模数据集。在多标签演化超网络中,超边和超边权重可以表示特征子集与标签之间的高阶关系,利用此结构特性可以高效挖掘标签相关性。本文在多标签演化超网络算法的基础上,关注了标签相关及标签类别不平衡的特性,利用Spark分布式并行计算框架处理较大规模多标签数据。本文的主要研究工作如下:1.为了关注标签相关及标签不平衡,本文提出了一种Spark下改进多标签演化超网络。首先,该模型将传统的演化超网络转化为多标签演化超网络。其次,通过将代价敏感引入多标签演化超网络解决标签类别不平衡。同时,优化多标签演化超网络中超边替代和梯度下降演化学习计算过程来达到降低算法时间复杂度和提高算法性能。最后,利用Spark平台进行并行计算适应较大规模数据处理。2.为了进一步提升算法对大规模数据的处理能力,结合演化超网络结构与集成学习,提出Spark下集成多标签演化超网络。首先,利用自适应神经网络进行聚类分簇,构建出特征空间相似的训练簇。其次,针对不同的训练簇分别利用Spark下改进多标签演化超网络算法演化学习,形成多个局部多标签超网络。最后,利用选择性集成将局部超网络融合为新的超网络并对测试集进行预测。本文在12个多标签数据集下进行实验来验证算法的有效性和优越性。首先,通过比较本文提出的两个模型和Co-MLHN等经典算法的性能,验证提出模型的有效性;其次,通过分析运行效率来说明算法的时间复杂度得到了改善,并且有良好的并行度和可扩展性。
其他文献
软件定义网络(Software Defined Network,SDN)作为一种新型的网络架构,通过解耦转发与控制功能,实现了网络的集中管控,从而大幅度提高了网络的灵活性与可控性。随着SDN逐步推
近年来,人们对电子产品的大量依赖和高性能的需求使得集成电路产业高速发展。随着工艺尺寸的不断减小以及电路复杂度的提高,物理实现过程中也遇到了新问题,如互连线延迟增加
随着信息技术的发展,人类对无线通信业务的需求日益增长,无线通信的频谱资源也日趋紧张。认知无线电技术通过频谱共享可以有效解决频谱资源紧缺的问题,提高无线通信中频谱的
大部分具有代表性的容迟网络(DTN)路由协议是基于拷贝策略的,这种类型的协议能达到很高的消息传输效率,但是却造成很大开销,此外还有垃圾回收的问题有待解决。而命名数据网络
空时分组编码--空间调制(STBC-SM)是一种新的多输入多输出(MIMO)传输方案。它结合了空间调制(SM)和空时分组编码(STBC),在STBC-SM方案中,传输的信息符号不仅在空间域和时间域
集成电路测试是保证芯片质量的关键步骤之一,一个微不足道的故障带来的损失都可能是无法估计的,所以集成电路测试一直是集成电路领域中的一个重点研究问题。超大规模集成电路
Web应用日益成为软件开发的主流之一,但随之而来的是Web应用程序中的多种安全漏洞,比如,SQL注入攻击,给人们的生活、工作、学习都带来了巨大的损失。面对Web交互中存在的种种
思想品德课是我国义务教育阶段的基础课程,虽然与其他学科有着诸多的共性,但是其作为中学生德育教育的主渠道具有其他学科无可替代的独特功能。目前我国思想品德课的教学中依
最近几年,“云计算”越来越多的出现在大家的视野中。云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。“云计算
大规模天线(Massive Multi-input Multi-output,Massive MIMO)作为第五代移动网络(5th Generation mobile networks,5G)的可能核心技术之一在学术界和工业界成为热门的研究方