论文部分内容阅读
随着互联网和移动技术的高速发展,社交网络的出现为人们获取信息和传播信息提供了一个重要的网络平台。转发是社交网络中重要的社交特性之一,同时也是社交网络上消息传播的主要方式。开展社交网络上用户转发行为的分析与研究有利于实现对信息的合理利用及控制,从而更加有效地推动社会进步及保障社会公共安全。然而,随着社交网络规模的不断扩大,用户行为分析与建模面临着社交数据高度稀疏性、网络结构多元异构性和用户意图多样性等挑战。当前已有的转发预测方法在预测性能方面仍难以达到实际应用的需求。为此,本文在分析和总结已有工作不足的基础上,借助于与转发行为有关的各种信息,针对用户转发行为预测所面临的问题展开研究。 用户转发行为建模与预测的难点在于如何准确把握转发行为的影响因素及对其进行量化表示用于转发行为预测建模中。目前常用的方法是通过抽取大量与转发行为有关的特征来预测转发行为。尽管这类方法在预测用户转发行为方面取得了一定的成果,但其模型性能在很大程度上依赖于特征抽取的质量,而且大量特征可能带来预测噪音。此外,这些方法并没有考虑转发数据的稀疏性问题,导致转发预测的性能并不是很理想。在实际转发预测中,由于存在转发数据噪音大、转发行为影响因素多以及可用社交信息有限等原因,使得用户转发行为的分析和研究面临着严峻的挑战。 为了解决上述问题,本文首先展开用户转发行为影响因素的探索与分析,提炼并总结了用户转发行为建模中的三个关键问题:(1)用户话题兴趣抽取;(2)用户间影响力量化表示;(3)用户转发行为预测。围绕着这三个关键研究问题,本文充分合理地使用了社交网络中的各种数据资源,对用户转发行为分析与建模进行了深入的分析与研究。本文的具体工作和创新点如下: 1.本文针对社交文本话题建模问题,根据社交文本长度有限且含有大量噪音的特点,以非概率话题模型为基础,提出一种基于话题领域词典的社交文本话题建模方法。该方法首先以外部已有的话题领域词典为基础,构建与社交网络上话题相匹配的话题系统。同时,通过改进的词项权重评价方法为每个话题类别提取少量且高质量的话题表示词,然后以社交文本作为文档集合,借助于潜在语义分析的思想将社交文本话题识别问题转化为一个近似低秩逼近的优化问题,并根据社交文本所固有的噪音性,提出有效的去噪正则化目标函数。具体地,该模型以矩阵分解方法为基础,通过利用预先引入的话题先验知识来监督话题学习过程及使用稀疏正则项来进行话题词项去噪等手段,从而改善所学习到的话题质量,提高模型效率。最后,实验以真实的社交文本数据为分析对象,在多项评测指标上验证了本文所提方法的有效性。 2.本文针对用户间的影响力度量问题,提出一种联合消息传播力和带权用户行为的用户间影响力度量方法。该方法提出了一种新的假设:用户间的影响力强度是由用户间消息传播力和用户间交互活跃度所共同决定。由于社交网络上用户间影响力具有有向性和动态性等特点,传统用户间影响力度量方法不能很好地刻画这种数据特征。因此,该假设通过挖掘基于兴趣相似度的消息传播力和用户交互活跃度来更好地刻画用户间的影响力强度。具体地,该方法首先根据用户间所传播消息量和用户兴趣相似度来量化消息传播力;然后以社交网络用户的历史行为数据为基础,融入行为时间因素,区分不同用户行为对用户间影响力的贡献度来度量交互活跃度。最后,该算法通过线性组合的方式有效地统一用户间影响力的学习。通过用户转发行为预测实验的验证,比起传统的用户间影响力度量方法,联合消息传播力和带权用户行为的用户间影响力度量方法可以更好地利用社交网络中的数据来改善用户间影响力的学习。本文中展现的方法是后续工作的重要研究基础。 3.本文针对用户转发行为预测问题,提出了基于矩阵分解的用户转发行为预测模型,具体包括基于消息聚类的转发预测模型和基于多元社交因素的转发预测模型。这些模型均借鉴矩阵分解理论中的思想,使用矩阵补全这一重要特性来近似用户的转发行为,并且将基于用户维度和基于消息维度的正则融入到用户转发行为预测中,采用随机梯度下降的方法进行目标函数的求解。其中,基于消息聚类的转发预测模型仅依赖于消息间相似一致性信息,因此具有很好的通用性;基于多元社交因素的转发预测模型充分考虑用户话题兴趣和用户间影响力等重要的社交因素,具有更高的预测精度。此外,在该问题建模时,由于已观测到的转发实例高度稀疏,无法直接学习到很好的预测性能。基于此,本文提出使用聚类的方法来消减数据稀疏性问题,从而改善转发预测性能。实验结果有力地说明了本文所提方法的有效性。 通过以上研究,本文提出了一个针对用户转发行为预测建模的新方法,为用户转发行为预测提供了新的思路。然而,目前关于用户转发行为预测建模的研究仍处于起步阶段,仍有很多重要的问题亟待解决,希望本文的研究能推动这一领域的发展。