论文部分内容阅读
我们处在互联网快速发展的时代,每天会产生数以亿计的信息。信息与信息之间组成了庞大的关系网。互联网中信息数量不断增长的同时信息与信息之间的相互关系也变得越来越复杂。要将人与人,人与信息,信息与信息之间的关系表示出来,就需要建立高维的张量模型。然而,将高维的张量数据转换成矩阵形式,从中提取特征的传统方法,容易会造成数据结构与信息的损失,影响实际应用效果。直接对张量建模开始称为广大学者们研究的热点。其中,张量低秩逼近是张量分析中的基础,很多基于张量数据模型的研究都需要用到张量低秩逼近,也就是张量分解技术。本文对非负张量分解主要算法及其概率图模型进行了研究,并利用张量分解建模,解决了个性化推荐、图像和视频中的实际问题。论文首先调研了国内外基于张量分解的研究现状,在CP模型和Tucker模型的基础上分别研究了基于最小化欧式距离和最小化KL散度的非负张量分解,主要有以下研究与创新:1、优化了使用乘性迭代求解的稀疏张量的非负分解算法。对于包含大量零值元素的稀疏张量,在空间上利用序列化张量的方式优化了存储复杂度,在时间上通过对序列化后张量的进行排序,辅助少量的内存空间,改变迭代公式中的求和累加顺序,使非负张量分解中的迭代达到线性的空间复杂度和时间复杂度。2、提出了基于张量分解的最大期望张量补全算法(EMTC)。针对彩色图像数据缺失问题,在非负张量分解的基础上,把缺失数据当做隐变量,结合EM算法,提出了 EMTC算法。3、总结了各类非负张量的分解算法与其概率表达。一方面,将带归一化限制的NTucker-KL和NCP-KL算法等价为张量方面模型;另一方面,将NTucker-EU和NCP-EU算法用高斯概率模型表示。同时给出了各类算法的概率图表示。在以上研究的基础上,通过实验证明了非负张量分解在个性化推荐、图像与视频等方面的应用中都取得不错的效果。具体如下:1、将张量方面模型应用在个性化引文推荐上,并运用改进的稀疏非负张量分解求解。实验中对比了仅使用关键词计数的方法、基于关键词-文章共现矩阵的PLSA算法、仅考虑用户阅读信息的协同过滤算法和综合考虑关键词和用户信息的各类非负张量分解的算法,在NCP-KL和NTucker-KL上取得了较不错的结果。此外,还探讨了在不同大小的秩下,NCP-KL算法在个性化引文推荐中的效果,当秩达到一定大小时,就能够较充分挖掘原有数据集中的信息。2、将张量分解技术应用在了图像与视频中。将EMTC算法应用在图片补全中,通过实验与CP-WOPT、LRTC和标准非负张量分解等算法进行比较,证明了 EMTC算法在数据填充和稳定性等方面都有不错的效果。此外还讨论了不同初始化值对EMTC算法的影响,减少EM算法框架中M步中的迭代次数,可以在一定程度上降低初始值对EMTC算法效果的影响。在视频上,利用非负张量分解对视频进行建模,通过分析NCP-KL、NCP-EU算法中得到的时间轴上的因子矩阵中factor的变化曲线,有效的区分了视频中的不同场景。