论文部分内容阅读
社交媒体的发展使网民能随时随地接受或发布新的信息,而微博更是以一种广播的形式将传统的社交媒体延伸为一种信息获取和产品营销的平台。一方面,这种平台使微博中的用户能看到来自各个渠道的信息;另一方面,商家能够通过微博这种独特的传播机制进行产品的推广,进而达到营销的目的。虽然这种传播机制能够带来很多好处,但就用户而言,“信息过载”使其每天需要翻阅大量的微博内容才能得到自己真正关心的信息,就商家和内容提供者而言,一视同仁地给所有用户推送商品相关内容不但成本较高,而且易产生负面效应。本文针对微博用户,提出一种微博用户兴趣模型的建模方法,确定这种兴趣模型的表达形式、计算方法和在计算机中的存储形式,在建立微博用户兴趣模型并准确表示微博用户短期兴趣的基础上,利用马尔科夫模型针对微博用户一个时间段的兴趣变化情况对兴趣的动态性进行刻画。本文首先通过对国内外学者对兴趣建模以及兴趣漂移的研究进行分析总结,得出微博用户兴趣建模的必要性,并给出微博用户兴趣和兴趣动态性的定义。通过分析不同兴趣模型表达方式所需要的兴趣信息和这些表达方式的应用范围,根据微博的具体特点,确定本研究使用的微博用户兴趣模型针对的用户群体和使用的兴趣信息和表达形式,结合文本处理过程中的一些经典算法,确定兴趣度的计算方式。其次,确定计算兴趣的时间段,并计算用户每个时间段上的兴趣向量,统计相邻时间段上兴趣向量的变化规律并形成相应的马尔科夫模型。最后,实现用户兴趣向量的预测,并利用评价指标确定最佳的兴趣时间段和学习的微博信息长度,利用预测的用户兴趣向量来进行用户协同推荐和基于内容的推荐。本研究使用来自新浪微博的真实微博内容作为实验数据,提出利用皮尔森相关系数和排序准确率衡量动态模型的好坏,确定适合用户和用户群体的兴趣时间段和训练时长,得出结果并对相应结果进行分析。研究成果对个性化服务、推荐系统、微博信息的排序等有理论和实践意义。