论文部分内容阅读
社会网络是近年来快速发展的社会实时新媒体,它日益影响着人们的生活和学习,帮助人们更好的进行信息的交流和分享。在社会网络上,存在着一些非常活跃的用户,他们关注了成百甚至上千的其他用户。而网络快速的信息流极易造成信息过载,用户无法在订阅的大量消息中找到自己感兴趣的信息。本文针对这一问题,利用排序学习算法建立用户偏好模型,对新数据按分值大小进行排序。
首先,针对数据稀疏性问题,本文提出利用用户朋友的数据进行解决的思路。对不同的朋友,用户与他/她的亲密度不同,该朋友数据的重要性不同。本文使用用户相似性度量不同数据重要性的方法,并通过分析目标用户与其关注的朋友之间的各种关系以及文本相似度等信息计算相似性。本文首先利用RankingSVM对社会网络中的消息进行排序,并对加入朋友样本进行训练的方法进行了验证,实验结果表明了算法的有效性。另外,为了提高模型的效率,我们使用RankBoost算法对消息进行排序,修改损失函数反映不同数据集的重要性,实验结果表明RankBoost算法效率高且能应用于实际。
其次,为了训练模型,我们抽取了样本的多种特征,包括消息文本特征、消息作者自身的特征、目标用户跟消息作者之间的关系等特征。另外,针对社会网络消息文本短小的问题,我们在使用TF-IDF的基础上,增加了利用LDA抽取的文本主题特征。在用户的相似度计算上,本文最大程度的利用了社会网络的各种信息,提出利用文本相似度、社会关系相似度、交互的频率等多种信息计算用户相似性。
最后,在国内微博数据上对本文的相关算法进行了测试,实验结果表明了算法的有效性。