面向社交网络的用户转发行为建模与预测研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hualing_xue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动技术的高速发展,社交网络的出现为人们获取信息和传播信息提供了一个重要的网络平台。转发是社交网络中重要的社交特性之一,同时也是社交网络上消息传播的主要方式。开展社交网络上用户转发行为的分析与研究有利于实现对信息的合理利用及控制,从而更加有效地推动社会进步及保障社会公共安全。然而,随着社交网络规模的不断扩大,用户行为分析与建模面临着社交数据高度稀疏性、网络结构多元异构性和用户意图多样性等挑战。当前已有的转发预测方法在预测性能方面仍难以达到实际应用的需求。为此,本文在分析和总结已有工作不足的基础上,借助于与转发行为有关的各种信息,针对用户转发行为预测所面临的问题展开研究。  用户转发行为建模与预测的难点在于如何准确把握转发行为的影响因素及对其进行量化表示用于转发行为预测建模中。目前常用的方法是通过抽取大量与转发行为有关的特征来预测转发行为。尽管这类方法在预测用户转发行为方面取得了一定的成果,但其模型性能在很大程度上依赖于特征抽取的质量,而且大量特征可能带来预测噪音。此外,这些方法并没有考虑转发数据的稀疏性问题,导致转发预测的性能并不是很理想。在实际转发预测中,由于存在转发数据噪音大、转发行为影响因素多以及可用社交信息有限等原因,使得用户转发行为的分析和研究面临着严峻的挑战。  为了解决上述问题,本文首先展开用户转发行为影响因素的探索与分析,提炼并总结了用户转发行为建模中的三个关键问题:(1)用户话题兴趣抽取;(2)用户间影响力量化表示;(3)用户转发行为预测。围绕着这三个关键研究问题,本文充分合理地使用了社交网络中的各种数据资源,对用户转发行为分析与建模进行了深入的分析与研究。本文的具体工作和创新点如下:  1.本文针对社交文本话题建模问题,根据社交文本长度有限且含有大量噪音的特点,以非概率话题模型为基础,提出一种基于话题领域词典的社交文本话题建模方法。该方法首先以外部已有的话题领域词典为基础,构建与社交网络上话题相匹配的话题系统。同时,通过改进的词项权重评价方法为每个话题类别提取少量且高质量的话题表示词,然后以社交文本作为文档集合,借助于潜在语义分析的思想将社交文本话题识别问题转化为一个近似低秩逼近的优化问题,并根据社交文本所固有的噪音性,提出有效的去噪正则化目标函数。具体地,该模型以矩阵分解方法为基础,通过利用预先引入的话题先验知识来监督话题学习过程及使用稀疏正则项来进行话题词项去噪等手段,从而改善所学习到的话题质量,提高模型效率。最后,实验以真实的社交文本数据为分析对象,在多项评测指标上验证了本文所提方法的有效性。  2.本文针对用户间的影响力度量问题,提出一种联合消息传播力和带权用户行为的用户间影响力度量方法。该方法提出了一种新的假设:用户间的影响力强度是由用户间消息传播力和用户间交互活跃度所共同决定。由于社交网络上用户间影响力具有有向性和动态性等特点,传统用户间影响力度量方法不能很好地刻画这种数据特征。因此,该假设通过挖掘基于兴趣相似度的消息传播力和用户交互活跃度来更好地刻画用户间的影响力强度。具体地,该方法首先根据用户间所传播消息量和用户兴趣相似度来量化消息传播力;然后以社交网络用户的历史行为数据为基础,融入行为时间因素,区分不同用户行为对用户间影响力的贡献度来度量交互活跃度。最后,该算法通过线性组合的方式有效地统一用户间影响力的学习。通过用户转发行为预测实验的验证,比起传统的用户间影响力度量方法,联合消息传播力和带权用户行为的用户间影响力度量方法可以更好地利用社交网络中的数据来改善用户间影响力的学习。本文中展现的方法是后续工作的重要研究基础。  3.本文针对用户转发行为预测问题,提出了基于矩阵分解的用户转发行为预测模型,具体包括基于消息聚类的转发预测模型和基于多元社交因素的转发预测模型。这些模型均借鉴矩阵分解理论中的思想,使用矩阵补全这一重要特性来近似用户的转发行为,并且将基于用户维度和基于消息维度的正则融入到用户转发行为预测中,采用随机梯度下降的方法进行目标函数的求解。其中,基于消息聚类的转发预测模型仅依赖于消息间相似一致性信息,因此具有很好的通用性;基于多元社交因素的转发预测模型充分考虑用户话题兴趣和用户间影响力等重要的社交因素,具有更高的预测精度。此外,在该问题建模时,由于已观测到的转发实例高度稀疏,无法直接学习到很好的预测性能。基于此,本文提出使用聚类的方法来消减数据稀疏性问题,从而改善转发预测性能。实验结果有力地说明了本文所提方法的有效性。  通过以上研究,本文提出了一个针对用户转发行为预测建模的新方法,为用户转发行为预测提供了新的思路。然而,目前关于用户转发行为预测建模的研究仍处于起步阶段,仍有很多重要的问题亟待解决,希望本文的研究能推动这一领域的发展。
其他文献
本论文主要研究形式规范语言命题动态逻辑(PropositionalDynamicLogic)的可分解(组合)性及其递归扩展,以及相关的一些判定性问题。   命题动态逻辑是一个经典的形式规范语言,
学位
量子计算技术的高速发展对基于传统数论困难问题设计的许多密码体制包括基于大整数分解以及离散对数等密码体制的安全性构成了严重的威胁,因此国内外学者掀起了研究能够抵抗量
随着信息技术的迅猛发展,互联网在人们的生活、工作、娱乐等方面起着重要的作用。在线视频应用更是成为人们代替电影院进行影音欣赏的主要渠道。但是随着多媒体数据的不断膨胀
随着我国空间科学的快速发展,越来越多的科学卫星从对地观测转向对天观测。此时,传统的对地覆盖分析方法己不能满足科学卫星有效载荷对科学目标覆盖性分析的需要。因此,开展卫星
复杂网络中社区结构的检测对理解网络功能有着十分重要的意义,被广泛用于恐怖组织识别、社交网络分析等实际问题。但随着网络结构的愈加复杂,单纯依靠拓扑信息的社区检测很难获
软件项目调度问题(Software Project Scheduling Problem,SPSP)是经典的调度子问题,其主要解决软件项目开发中的软件开发工程师和任务之间的调度分配管理问题,以保证在尽量小的
伴随着全球能源危机,世界各国均开始着手新能源的研究。天然气作为一种可再生能源,已得到社会各界的广泛关注,而西气东输工程的投运也为压缩天然气(Compressed Natural Gas,CNG)
传感器网络数据融合是一个新兴的研究领域,是近几年来发展起来的一门实践性较强的多学科交叉的新应用技术,并从传统领域(如军事国防和环境监测等)向民用领域(如医疗健康,智能
随着互联网信息技术、移动计算技术以及无线通讯技术的发展,移动应用的需求日益增多,移动对象的应用领域也越发广阔。在此类应用中如何高效地管理空间中运动的对象成为研究热点