论文部分内容阅读
随着社会化商务的普及,用户在使用电子商务的过程中会持续产生评论、评分等体现商品特征、用户偏好的信息。整合各个电子商务平台中的评论信息,并且利用这些评论信息进行评分预测是智能推荐领域的研究热点。为了实现跨电子商务平台的评分预测以及提高评分预测的精确度,论文做了以下三方面的研究。设计了基于时间窗口的用户评论隐含信息的挖掘方法。在不同的时间窗口下,以用户评论中包含的词汇为网络节点,词汇共现的次数作为连接节点的边权重,构建用户评论信息网络模型。对于同一个商品,分别在目标平台和辅助平台上构建动态的用户评论信息网络,两个信息网络通过相同的网络节点连接,构成动态的跨平台信息网络模型。设计了模型中节点的关联度和用户评论相似度的计算方式。利用关联度和度中心性挖掘目标平台上用户评论的隐含信息,目标平台的用户评论在辅助平台上的隐含信息。结合评论隐含信息与原始评论信息能够更准确地描述用户对商品的真实感受,降低评分预测的误差;通过目标平台上的用户评论在辅助平台上的隐含信息,能够实现跨平台评分预测。设计了基于时间窗口的用户评论-偏好动态映射方法。在动态主题模型的基础上,对用户评论进行动态主题分析,挖掘主题词在不同时间窗口内潜在的变化规律,通过主题词的概率值变化刻画用户对商品属性的偏好演变,使用户评分预测具有时效性。在指定时间窗口下融合主题词之间的相似度与互信息强度,建立主题词动态层次树,使主题词所在的层次能够动态地表征主题词对于用户评分的影响程度。最后提出基于主题词动态层次树的用户偏好向量生成方法。在指定时间窗口下将用户评论映射于每个主题下的主题词层次树中以生成用户的偏好向量,使得在不同时间窗口下的用户评论均映射到相同维度的向量空间中。在动态的跨平台信息网络模型的基础上,基于主题词层次树的评分预测进一步地降低了预测的误差。在根据用户偏好向量进行评分预测阶段,提出了对GBDT-LR预测算法进行两个阶段的优化方法。第一阶段生成了GBDT-MCLR(GBDT-Multi Class LR)预测模型,GBDT-MCLR在GBDT-LR上融入了聚类的思想,提出了ACK-Means(Adaptive Ca nopy+K-Means)聚类算法。ACK-Means聚类算法能够根据偏好向量自动选择更优的聚类数和聚类中心,并将用户偏好向量划分到各个类中,在各个类中生成拟合函数,根据用户偏好向量所属的类在相应的拟合函数上进行预测值计算。第二阶段生成GA BC-MCLR(GBDT and Binary Classification-Multi Class LR)预测模型,GABC-MC LR将GBDT-MCLR的预测值计算过程转换为一元二次方程求解过程,根据二分类算法选择一元二次方程的最优解作为新的预测值,新预测值与原预测值相比更接近于真实值。论文采用电商平台amazon和e Bay上的用户评论作为数据集,通过实验证明,论文的三个部分的研究结果的有效性。并且每一部分都在上一部分工作的基础上,用户评分的预测效果得到更进一步的提升。