论文部分内容阅读
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,在现实世界中也具有越来越重要的潜在应用价值。在多标签学习中,一个样本同时隶属于多个标签,因此多标签学习的关键挑战在于预测的标签空间为指数级,现有的解决方法主要集中在如何利用标签相关性来促进学习过程。然而,大部分方法没有充分考虑多标签数据的固有属性,即标签类别不平衡。另一方面,大多数多标签学习算法无法很好的处理大规模数据集。在多标签演化超网络中,超边和超边权重可以表示特征子集与标签之间的高阶关系,利用此结构特性可以高效挖掘标签相关性。本文在多标签演化超网络算法的基础上,关注了标签相关及标签类别不平衡的特性,利用Spark分布式并行计算框架处理较大规模多标签数据。本文的主要研究工作如下:1.为了关注标签相关及标签不平衡,本文提出了一种Spark下改进多标签演化超网络。首先,该模型将传统的演化超网络转化为多标签演化超网络。其次,通过将代价敏感引入多标签演化超网络解决标签类别不平衡。同时,优化多标签演化超网络中超边替代和梯度下降演化学习计算过程来达到降低算法时间复杂度和提高算法性能。最后,利用Spark平台进行并行计算适应较大规模数据处理。2.为了进一步提升算法对大规模数据的处理能力,结合演化超网络结构与集成学习,提出Spark下集成多标签演化超网络。首先,利用自适应神经网络进行聚类分簇,构建出特征空间相似的训练簇。其次,针对不同的训练簇分别利用Spark下改进多标签演化超网络算法演化学习,形成多个局部多标签超网络。最后,利用选择性集成将局部超网络融合为新的超网络并对测试集进行预测。本文在12个多标签数据集下进行实验来验证算法的有效性和优越性。首先,通过比较本文提出的两个模型和Co-MLHN等经典算法的性能,验证提出模型的有效性;其次,通过分析运行效率来说明算法的时间复杂度得到了改善,并且有良好的并行度和可扩展性。