论文部分内容阅读
互联网络的发展,伴随着信息形式的多样化及爆炸增长。社交平台的出现,增加了社交用户的信息获取渠道,加速了互联网信息的扩散速度,社交平台也逐渐成为互联网环境下信息的主要获取方式之一。社交用户可以自由地在社交平台上构建个性化的信息获取渠道,通过这种构建的渠道网络,用户从对信息的主动访问获取转变为了被动推送获取模式,革新了互联网络的信息获取方式,使得信息的访问、传递及过滤更加高效。这种日益增长的用户需求以及多样化的社交数据,使得理解和掌握信息传播的规律,并将其用来建模和预测信息传播成为可能。传播建模问题的本质是建模信息传播的过程,这一问题是理解信息传播的核心关键,是诸多应用问题的基础和关键。 我们认为传播建模的核心是用户,如何理解用户和用户行为是建模信息传播过程的关键。本文分别提出了基于用户表达学习的传播建模和基于用户传播行为表达学习的传播建模方法,并讨论多种传播现象的影响,深入理解传播模型,拟合和预测信息传播过程。具体研究内容如下: 第一,我们提出基于用户表达学习的传播模型—LIS模型—用以解决传统以结对建模方式进行传播建模工作在实际应用场景中所面临的严重过拟合和过表达问题。通过对传播用户两个低秩隐表达向量的学习,建模用户在信息传播中的激活过程。我们还定义了传播上下文,用以刻画传播中所存在的累积效应现象。通过实验证明我们所提模型不仅可以更好地建模传播过程,所学得的用户表达还可以量化传播中的人际影响力,帮助理解信息传播过程。 第二,考虑时间特征对用户表达学习的影响,我们在离散点过程的框架下提出引入时序特征的用户影响力表达建模方法LIST模型,考虑用户传播属性在时间尺度上的变化情况,更准确地建模时序传播序列。我们定义了三种人际影响力在时间尺度上的变化方式:衰减、增强和常数形式。在离散点过程的框架下,我们刻画了两种不同的传播现象:累积效应和独立级联传播。除此之外,我们还统一了LIS和LIST工作,证明了LIS是LIST模型的特例形式。 第三,我们利用循环神经网络学习序列中传播行为的表达,将序列中复杂的行为关联关系以及当前行为的特征以表达学习的方式嵌入到传播行为的表达中,认为用户的激活过程依赖于当前传播行为的表达。我们同时建模了传播序列中下一传播行为发生时间和对象的依赖关系,利用带标记的点过程模型,准确刻画不同用户传播行为的响应时间。 最后,我们提出利用循环神经网络建模传播序列的工作存在跳跃依赖问题。这是由于传播中存在树型结构,而链式结构的循环神经网络无法捕捉到这种树型结构导致的。因此,我们提出基于关注机制的循环神经网络模型来刻画传播行为中的跳跃依赖关系。关注机制可以根据输入的传播序列,自动地学习传播中的结构关系,从而解决利用循环神经网络解决传播建模问题中所遇到的跳跃依赖问题。进一步地,我们引入覆盖(coverage)策略来解决关注的误分配问题。所提的模型不仅在传播预测任务上与对比方法的预测结果相比取得了较好的表现结果,其中关注机制中所学得对齐系数还能反映对应的传播结构,恢复传播网络。 上述的研究工作表明,通过本文提出的基于表达学习的传播建模工作,可以更好地理解信息传播过程,拟合传播现象。本文的研究工作完善了基于表达学习的传播建模相关研究的体系框架,对传播建模在实际场景中的应用具有实践和指导意义。