论文部分内容阅读
融入用户生成信息(User generated content,i.e.,UGC)的推荐系统在近年来得到了研究和应用。在众多的用户生成信息中,基于评分的反馈信息广泛存在,因此基于评分数据的推荐算法吸引了研究者的兴趣,例如,协同过滤算法、聚类、关联规则、隐因子模型等。随着推荐系统的成功应用,用户参与度不断提高,各类信息可以不断的被加入到推荐算法中,用户撰写的评论文本内容成为最能反映用户喜好的信息之一,越来越被研究者关注,与之相关的文本分析及观点挖掘的方法不断提出和优化。然而将评分矩阵与评论文本挖掘结合的方法并不多见,本文在前人研究的基础上,改进和提出四种融合评分和评论信息的推荐算法以提高推荐效果,并研究有用性评论的识别问题。论文的主要工作如下:一、评论文本包含丰富的用户情感和商品特性,现有方法却没有充分的融合评分与评论文本,本文提出改进的HFPT及DLMF算法,用于试图改进HFT(item)算法。在Amazon的28组评分评论集中进行实验,平均均方误差(MSE)作为指标,发现HFPT算法稍逊于HFT(item)算法,其中存在的原因是单条评论内容大多数属于短文本,LDA主题发现算法在短文本中不及长文本有效,因此,DLMF算法将评论集分解为更能反应用户喜好和商品特性的用户评论集、商品评论集,将两者的主题特征同时融入到矩阵分解模型来改进上述问题,经过实验发现DLMF算法优于HFT(item)算法,数据子集提升效果最高达到3.68%。二、用户的偏好会受到自身和他人对商品的偏好影响,所以将主题偏好作为引导项有利于提升效果,本文提出两种加入主题偏好引导的改进算法PGMF及DPGMF。Amazon的28组数据上实验发现两种算法在平均均方误差指标优于HFPT、DLMF和HFT(item),相比HFT(item)的提升效果最高达到7.31%。三、在过往的研究中都是以单个商品为目标,对所有隶属于该商品的评论进行排序,本文提出基于上述四种算法的个性化的用户评论有用性识别,能够得到与用户偏好和商品特性最为相关的评论排序,并提供给不同用户。然而,由于在本数据集中并未能够对单个用户的评论进行有用性标记,因此无法完整的验证个性化的识别效果,但是在后续研究中可以针对可行数据做进一步研究。