论文部分内容阅读
随着信息时代的快速发展,医疗保健、多媒体检索和科学研究等领域的混杂和多输出数据量快速增长。由混杂和多输出数据构成的聚类,分类或回归等任务面临着巨大的挑战,有效利用混杂鱼多输出数据的特征计算样本之间的距离或相似性是至关重要的。本文围绕着混杂与多输出数据分类任务的需求,沿着混杂数据度量学习方法和多输出数据度量学习方法展开研究,其主要工作和创新点如下。(1)提出了混杂数据的多核几何平均度量学习。该方法通过不同的核函数分别将数值型数据和符号型数据映射到可再生核希尔伯特空间,同时,将度量学习问题转化为求黎曼流形上的两个点的中心点的问题.为避免过度拟合,优化目标通过对称化的LogDet分歧进行调整。基于几何平均的多核度量学习算法能得到一个封闭形式的解,该算法在精度和效率两方面均优于已存的度量学习方法。(2)提出了一种用于数值型和符号型数据混杂的的支持向量度量学习框架。几乎所有现有的算法都侧重于定义新的距离度量标准,而不是学习混杂数据的有判别性的度量算法。该方法为混杂数据定义了样本对核,然后将度量学习转换为样本对分类问题。所提出的模型可以通过标准的支持向量机求解器有效地解决。为了考虑数值和符号数据的重要性,开发了多核学习模型来学习混合数据的加权度量。混杂数据上的实验验证了提出的度量学习模型的可靠性能。(3)提出了一种新的核回归度量学习框架。由于大多数现有的度量学习方法致力于依赖样本对之间的相似和不相似关系来学习相似度或距离度量。然而,在许多现实应用中,不能简单地将样本对定义为相似或不相似,例如,多标签学习,标签分布学习和具有连续决策值的任务。由于两个样本的关系可以通过决策值的差异程度来衡量,根据样本关系在特征空间和决策空间中的一致性,我们提出的回归度量学习利用决策空间中的样本关系来指导在特征空间中的度量学习。通过这种方式,我们的回归度量学习方法将度量学习作为核回归问题。我们对单标签分类,多标签分类和标签分布学习任务进行了多次实验,实验证明我们的方法对照最先进的方法取得了良好的性能。