论文部分内容阅读
社交网络的兴起变革了人们沟通交流、分享信息的方式和渠道,正逐步成为信息时代的主流传播媒介,其活跃用户规模和用户生成内容均呈爆发性增长。内容流行度是网络用户群聚行为的体现,反映信息的扩散范围和影响深度,对其预测具有重要的理论意义和实用价值,已经受到大量研究者的关注。然而,社交网络中丰富的交互模式和内容模态,爆炸的信息裂变速度,均对预测方法的时效性、适用性提出更高的要求;同时,参与主体的能动性和强异质性,线下真实社会对线上虚拟网络的映射作用,均增强了网络的随机性、动态性及不确定性,为描绘用户微观交互行为和揭示内容流行度增长机制带来难题。鉴于此,本文结合交叉学科的思想和方法,对社交网络内容的流行度最终规模、流行度演化趋势、级联增量、流行度排序等预测问题进行了深入研究,重点研究了历史观察窗口的自适应问题,考察了模型刻画能力和预测能力之间的平衡机理,研究了流行度关联特征在不同维度的筛选、提取、融合策略,探讨了用户交互方式对聚合网络微观偏好的作用机制。论文工作有助于了解社交网络中信息传播扩散的过程,加深对网络上的复杂群体行为的认识,提高流行度分析预测的自动化及智能化水平。论文的研究工作得到国家自然科学基金项目(No.61271308、61172072)、国家自然科学基金青年基金(No.61401015)和中央高校基本科研业务费专项资金资助(No.2017JBZ107)的支持。论文的主要工作和创新点如下:1.研究流行度最终规模预测方法。建立基于自激励点过程的信息流行度生成模型,综合考虑消息吸引力、网络拓扑结构、系统弛豫响应等因素,量化传播事件间的作用关系。在通过传播历史进行流行度预测的过程中,针对现有生成模型没有考虑观察窗口选取与预测精度之间关联性的问题,通过聚类消息吸引力的全局动态演化模式,提出了一种自适应观察窗口的挖掘方法,增加了观察式预测的精度和适应性;考虑到生成模型类预测方法的预测性能受限于强假设性及参数拟合过程缺乏未来流行度的指导学习,通过设计随机森林回归器学习得到预测比例因子,将特征驱动类方法的优势融汇到生成模型类预测框架中,使之在刻画能力和预测能力之间寻求平衡。2.分别从“事件”粒度和“时间”粒度的角度,研究流行度演化趋势预测方法。基于“事件”粒度,提出一种自激励点过程驱动的消息动态转发数预测方法;基于“时间”粒度,针对内容流行度演化过程的强异质性,单一的时间序列预测模型很难同时捕获各类流行度动态演化模式,通过应用多类回归器和各子模型的历史预测性能,生成各子模型的预测值的组合权重,建立融合多个传统时序模型(ARIMA、M-L、SVR)的预测能力的组合预测框架,该模型可以根据各子模型的即时预测性能不断调整组合权重,从而适应演化模式的动态变化。两类预测模型分别应用于Twitter、Last.fm、MovieLens、Flickr及Amazon等真实的社交网络数据集,所提模型均实现优于现有模型的预测性能,基于时间序列的组合预测模型的平台适用性也得到验证。本研究为进一步实现对社交网络热点话题跟踪、研究宏观舆论演化提供基础。3.建立基于表征学习的级联增量预测方法。该模型直接从级联网络原始数据中自动学习级联的时域及拓扑结构特征,克服传统的特征驱动方法中人工构造特征的局限性;并利用级联时域特性和拓扑结构特性的互补性,提出注意力引导的时空耦合机制,分别利用时域信息和拓扑结构信息互相监督其组合权重的生成,以实现对级联时空信息的“结构化”,有利于更有效的模型训练,增强级联预测模型的刻画及预测能力。在两个真实的应用场景—Twitter中推文的转发增量预测和学术论文被引次数预测—中进行的实验表明,该预测模型在预测准确度上优于已有的级联预测模型,此外,级联时域信息和空间拓扑信息的互补性,时空耦合的注意力机制设计合理性也都得到验证。4.研究社交网络内容的相对流行度预测方法。首先,建立基于个体行为偏好的二部图模型,该模型中不同类型的微观偏好被抽象为不同权值的边;然后,针对网络偏好的微观性与宏观性的关联问题,从聚合微观偏好角度出发,建立融合社交网络流行度增长机制的正则化框架,实现宏观偏好排序。在真实的社交网络数据集中的实验表明,该模型可实现更好的流行度排序能力,分别表现在流行度全局排序、对不同热度的内容的排序以及热点内容的早期预警等任务,正则化项设计的合理性也得到验证。本研究为社交搜索和推荐系统等应用领域提供有力的研究工具,在经济和网络价值发掘的实践中,有广泛的意义和价值。