论文部分内容阅读
新浪微博作为社交网络的典型代表,因其平台的便捷、信息的传播高效、用户的交互性强等特点吸引着大量用户。而随着用户规模的不断增加,微博产生的速度也在不断扩大,新浪微博每天都会产生超过一亿的数据。对于用户来说,微博产生速度的加快使得用户浏览的信息也不断增多,用户往往耗费大量的时间筛选自己感兴趣的内容。 目前,新浪微博是按照时间的顺序对微博进行排序,即最新的微博排在最前面。用户阅读微博时,往往要从头开始阅览,用户感兴趣的内容可能在任意一个位置,用户需要大量的时间阅读所有微博找到自己感兴趣的内容。针对这一问题,本文对用户信息和微博内容进行研究,采用学习排序方法来训练重排序模型,设计了基于多任务学习的微博信息流的重排序算法。研究了用户相似性度量方法,设计了基于相似性度量的重排序算法。 针对样本数据稀疏性的问题,在学习排序的基础上引入了多任务学习框架,设计了微博信息流的重排序算法。微博内容和用户兴趣爱好是研究微博重排序的重要内容。本文对用户和微博特征进行了研究,从真实的微博数据中提取了实验所需的特征,形成特征向量。本文使用机器学习的思想解决微博的重排序问题,采用学习排序(learning to rank)的方法在训练数据集上训练重排序模型。对于用户来说,需要重排序的微博数可能就几十条,数据过于稀疏。通过多任务学习,找到每个用户重排序任务间的共性,将这些任务联合起来,共同训练,共同学习。引入多任务学习框架对个体行为进行建模的同时,利用全局的数据解决个体建模中存在的数据稀疏性问题。 针对用户之间的相似性问题,设计了微博用户的相似性度量方法,实现了相似性度量的微博信息流重排序算法。与传统的文档排序不同,新浪微博作为一个社交网络平台,在提取用户个性化特征的同时,不可忽视的是用户之间的交互性。往往一个用户的行为会对另一个用户产生影响,用户之间具有一定的相似性,且相似性大小各有不同。本文根据用户在内容和结构上的共性,量化用户之间的相似性,建立用户之间的联系,设计用户的相似性计算方法。在多任务重排序模型的基础上,通过正则化引入用户相似性模型,实现相似性度量的基于多任务学习的重排序算法。 本文基于新浪微博数据集对算法进行仿真实验。实验表明,多任务学习框架能够解决数据稀疏性并提高模型的泛化能力。同时,用户相似性的计算对改善重排序模型的性能,提升重排序的效果也有很好的表现。