矩阵分解在数据挖掘中的应用

被引量 : 0次 | 上传用户:anlanyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
矩阵分解在很多需要数据挖掘技术的实际应用中非常热门,例如信息检索,机器视觉和模式识别等领域。矩阵分解旨在使用两个或者更多的低维矩阵来逼近一个高维矩阵。在现实应用中,数据通常会有各种各样的特点:数据可能会有全局几何结构;数据也可能是非常稀疏的;训练数据集可能是非常有限的。这就需要人们围绕数据的特点设计不同的矩阵分解方法。本文研究了矩阵分解在实际应用中的一些突出问题。基于现有的工作,我们借用不同的数据结构提出了不同的矩阵分解方法,用来解决实际问题。本文的主要工作和贡献在下面几个方面:1.针对数据表示中存在的问题,提出了一种坐标排序正则化非负矩阵分解方法,以更好的利用数据的全局流形几何结构。这个方法的主要思想是结合非负矩阵分解和流形排序方法来同时利用数据的局部和全局几何结构。在真实数据上的实验结果说明了所提出算法的优越性。2.针对科学文章推荐存在的问题,提出了一种主题回归矩阵分解模型。这种分解模型主要是使用概率主题建模对矩阵分解进行拓展。主题回归矩阵分解模型通过引入一个回归模型对用户隐藏变量进行正则化,这种正则化是基于一个假设:评价过相似项目的用户有着相似的偏好。进一步,主题回归矩阵分解模型可以为用户和项目提供可解释的隐藏变量,并且可以为社区用户作出准确的预测。此外,我们在CiteULike网站提供的一个较大的真实数据集上验证了算法的效率。实验结果表明本算法在性能上要优于现有的代表性算法。3.针对科学文章中存在相关性结构的问题,我们提出了主题回归多矩阵分解模型。这种分解模型可以将主题回归模型和相关性矩阵分解结合起来。此外,我们还提出了带有相关性矩阵分解的协同主题回归模型,此模型可以作为主题回归多矩阵分解模型的基准比较算法。同样,我们在CiteULike网站提供的一个较大的真实数据集上验证了算法的效率。实验结果表明主题回归多矩阵分解模型要优于其他现有的代表性算法。4.针对标注问题中训练集有限且含有噪声问题,我们提出了多标签约束的半参数正则支持向量机方法。这种方法可以通过半参数正则利用已标注和未标注数据,同时通过多标签约束优化目标函数。半参数正则的主要思想是利用高维空间协方差矩阵分解得到的数据几何结构。虽然多标签约束的半参数正则支持向量机方法可以用于各种数据标注,但是本文集中应用于训练集有限且含有噪声的图像标注问题中。理论分析和大量实验比较论证了本方法的优越性。
其他文献
本文使用脑电图(EEG)信号针对睡眠阶段进行自动评分,评分为五个阶段,即清醒,阶段1,阶段2,慢波睡眠(阶段3和4)和快速眼动睡眠(REM)。睡眠阶段的变化伴随着EEG信号频谱的变化,基于此本文利
以方便(即冲即凝)豆腐粉为研究对象,探讨了大豆蛋白质的提取工艺。根据正交实验结果,确定提取工艺参数为:vXpH7.0的水15℃浸泡大豆15h后,用pH7.0的70℃时水按豆:水=1:10的比例磨浆。经过
经济落后的国家可以通过吸引外资的方式来获取外国现成的先进技术来发展自身的经济,无论因此消耗的成本多低,随着该国经济的发展,若想不总落后于别国,最后该国的发展都将会更
LIMS是信息技术和先进管理思想相结合的现代化管理平台,它可以取代传统的手工管理模式而给检测实验室带来巨大的变化,提高检测实验室的整体业务能力和工作效率,由此全面提高
基于目前外宣资料的汉英翻译现状来看,文化缺省是一直存在但没有有效解决的问题之一。针对此问题,本文将以目的论三原则为理论框架,探讨研究外宣资料汉英翻译的文化缺省问题
面对房价的毅然坚挺,结婚适龄青年所面临的最紧迫的就是婚后用房问题,由于房价高,购房所需款数额较大,相当一部分人无法一次性付清,按揭购房成为许多年轻人购买房屋的必然选
静电放电(ESD, Electrostatic Discharge)作为生活中常见的自然现象,严重威胁着集成电路产品的可靠性。为了保证芯片的成品率,片上ESD防护电路已经成为电路设计中必不可少的
境外投资是一个国家国际投资不可分割的重要组成部分。在国家经济不同的发展阶段,一个国家对待境外投资的政策应该是不一样的。我国的境外投资开始于1979年,随着全球经济一体
随着经济的发展,资源消耗与环境污染问题日益突出。环境合同的出现为解决资源的开发利用及造成的损害赔偿、后续治理等系列问题,提供了一种新型、灵活、高效的管理手段。目前