论文部分内容阅读
矩阵分解在很多需要数据挖掘技术的实际应用中非常热门,例如信息检索,机器视觉和模式识别等领域。矩阵分解旨在使用两个或者更多的低维矩阵来逼近一个高维矩阵。在现实应用中,数据通常会有各种各样的特点:数据可能会有全局几何结构;数据也可能是非常稀疏的;训练数据集可能是非常有限的。这就需要人们围绕数据的特点设计不同的矩阵分解方法。本文研究了矩阵分解在实际应用中的一些突出问题。基于现有的工作,我们借用不同的数据结构提出了不同的矩阵分解方法,用来解决实际问题。本文的主要工作和贡献在下面几个方面:1.针对数据表示中存在的问题,提出了一种坐标排序正则化非负矩阵分解方法,以更好的利用数据的全局流形几何结构。这个方法的主要思想是结合非负矩阵分解和流形排序方法来同时利用数据的局部和全局几何结构。在真实数据上的实验结果说明了所提出算法的优越性。2.针对科学文章推荐存在的问题,提出了一种主题回归矩阵分解模型。这种分解模型主要是使用概率主题建模对矩阵分解进行拓展。主题回归矩阵分解模型通过引入一个回归模型对用户隐藏变量进行正则化,这种正则化是基于一个假设:评价过相似项目的用户有着相似的偏好。进一步,主题回归矩阵分解模型可以为用户和项目提供可解释的隐藏变量,并且可以为社区用户作出准确的预测。此外,我们在CiteULike网站提供的一个较大的真实数据集上验证了算法的效率。实验结果表明本算法在性能上要优于现有的代表性算法。3.针对科学文章中存在相关性结构的问题,我们提出了主题回归多矩阵分解模型。这种分解模型可以将主题回归模型和相关性矩阵分解结合起来。此外,我们还提出了带有相关性矩阵分解的协同主题回归模型,此模型可以作为主题回归多矩阵分解模型的基准比较算法。同样,我们在CiteULike网站提供的一个较大的真实数据集上验证了算法的效率。实验结果表明主题回归多矩阵分解模型要优于其他现有的代表性算法。4.针对标注问题中训练集有限且含有噪声问题,我们提出了多标签约束的半参数正则支持向量机方法。这种方法可以通过半参数正则利用已标注和未标注数据,同时通过多标签约束优化目标函数。半参数正则的主要思想是利用高维空间协方差矩阵分解得到的数据几何结构。虽然多标签约束的半参数正则支持向量机方法可以用于各种数据标注,但是本文集中应用于训练集有限且含有噪声的图像标注问题中。理论分析和大量实验比较论证了本方法的优越性。