论文部分内容阅读
随着数据收集和数据存储技术的发展,多模态数据广泛存于各种应用场景当中,如何对这些数据进行高效的分析是机器学习研究领域的热点问题之一。在处理多模态数据时通常会遇到维数灾难问题,传统的特征选择算法只能处理单模态数据,而无法有效的处理多模态数据,本文的研究目标为多模态数据的特征选择算法。在实际应用中,由于数据的标记信息很难获取,因此需要在无监督情形下进行特征选择任务,本文提出基于聚类结构保持的无监督多模态特征选择算法,该算法提出在特征选择的过程中利用线性判别分析保持原始数据的聚类结构,同时充分利用多模态数据之间的相关性和互补性,最后通过结构化的稀疏正则模型来选择权重较大的特征,并提出了新的迭代优化算法求解优化目标。我们在五个公共数据集上进行实验验证,并与其他无监督特征选择算法对比,实验结果说明了该算法的有效性和优越性。在实际情况中,虽然很难获得全部数据的标记信息,但是通常可以获得一部分数据的标记信息,半监督学习算法同时利用已标记样本和未标记样本进行学习,无标记数据的加入可以提高学习算法的性能,在此基础上,本文提出基于结构化稀疏的半监督多模态特征选择算法,该算法利用流形正则的方法,同时考虑多模态数据的相关性和互补性,在每个模态上保持数据的流形结构。在模型中引入两个结构化稀疏正则项,分别刻画不同模态间的特征和同一模态内的特征在不同分类任务下的判别性,将这一思想加入半监督的多模态特征选择算法中,建立模型并提出迭代优化算法求解优化目标,我们在五个数据集上进行实验验证,并与其他有监督和半监督特征选择算法对比,实验结果展示了算法的有效性。本文研究多模态数据的特征选择算法,充分考虑多模态数据的特点,提出了无监督和半监督两种多模态特征选择算法,并取得了良好的效果。