论文部分内容阅读
从大规模数据中提取有用的信息是人工智能面临的一个主要挑战。作为一种有效的信息过滤和数据摘要手段,子集选择方法通过从大规模数据中选取一个最具信息量的子集来代表整个数据集以减小需要处理的数据规模。此外,子集选择方法也用于改进相关领域中的模型以提高其泛化性能。本文主要研究基于组稀疏的子集选择方法在多核学习和多任务学习中的应用,其中在多核学习中分别利用具有代表性的核来减少不同相似性度量和不同数据源信息的冗余,而在多任务学习中则利用具有代表性的任务来充分发掘任务的潜在聚类结构。首先,本文提出了一种有效的多核聚类方法,其通过选择具有代表性的核函数来增强基础核之间的多样性。具体来说,我们首先设计一种策略从预先指定的核函数中选择一个具有代表性的子集,然后将这种代表性核选择策略合并到多核聚类的目标函数中,最后提出一种交替优化方法来优化聚类成员和核函数的权重。特别地,我们设计了一种定制的优化方法,通过交替方向乘子法来减少优化核权重的时间复杂度。基准数据集和实际数据集上的实验结果验证了所提出的方法的有效性。与现有方法相比,所提方法的优势表明由代表性核选择诱导的正则化可以有效改善组合核函数的质量。接着,基于非负矩阵分解,本文在多核学习框架下提出了一种新颖的数据融合方法来整合来自不同数据源的表示信息以得到高质量的数据表示。不同于直接以凸方式组合多个不同数据源的信息对应的核矩阵,我们引入正则化项来表征这些成对核矩阵之间的相似性以减少不同数据源的信息中存在的冗余。值得注意的是,得到的目标函数可以被视为代表性核选择的变体。接着,一种基于交替方向乘子法的优化方法被设计用于目标函数的求解。我们通过人脸识别任务来评估所提方法,其在三个数据集上的实验结果证明了多样性数据融合的优势。最后,基于假设——多任务学习中每个任务可以通过一些具有代表性的任务的线性组合来表示,本文通过选择具有代表性的任务为聚类多任务学习提供了一种鲁棒的任务分组方法。具体而言,我们通过选择与其它任务共享最多信息的代表性任务来发掘任务的潜在聚类结构。基于共享的代表性任务,相关任务被划分为不同的组,使得组内任务之间可以在一定程度上共享信息。此外,鲁棒的损失函数用于度量每个任务与其代表性任务线性组合得到的表示之间的误差,这可以有效减小异常任务的影响。人工和实际数据集上的实验结果表明所提出的方法优于许多现有的多任务学习方法。