社交网络中内容流行度的预测方法研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:maigansws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的兴起变革了人们沟通交流、分享信息的方式和渠道,正逐步成为信息时代的主流传播媒介,其活跃用户规模和用户生成内容均呈爆发性增长。内容流行度是网络用户群聚行为的体现,反映信息的扩散范围和影响深度,对其预测具有重要的理论意义和实用价值,已经受到大量研究者的关注。然而,社交网络中丰富的交互模式和内容模态,爆炸的信息裂变速度,均对预测方法的时效性、适用性提出更高的要求;同时,参与主体的能动性和强异质性,线下真实社会对线上虚拟网络的映射作用,均增强了网络的随机性、动态性及不确定性,为描绘用户微观交互行为和揭示内容流行度增长机制带来难题。鉴于此,本文结合交叉学科的思想和方法,对社交网络内容的流行度最终规模、流行度演化趋势、级联增量、流行度排序等预测问题进行了深入研究,重点研究了历史观察窗口的自适应问题,考察了模型刻画能力和预测能力之间的平衡机理,研究了流行度关联特征在不同维度的筛选、提取、融合策略,探讨了用户交互方式对聚合网络微观偏好的作用机制。论文工作有助于了解社交网络中信息传播扩散的过程,加深对网络上的复杂群体行为的认识,提高流行度分析预测的自动化及智能化水平。论文的研究工作得到国家自然科学基金项目(No.61271308、61172072)、国家自然科学基金青年基金(No.61401015)和中央高校基本科研业务费专项资金资助(No.2017JBZ107)的支持。论文的主要工作和创新点如下:1.研究流行度最终规模预测方法。建立基于自激励点过程的信息流行度生成模型,综合考虑消息吸引力、网络拓扑结构、系统弛豫响应等因素,量化传播事件间的作用关系。在通过传播历史进行流行度预测的过程中,针对现有生成模型没有考虑观察窗口选取与预测精度之间关联性的问题,通过聚类消息吸引力的全局动态演化模式,提出了一种自适应观察窗口的挖掘方法,增加了观察式预测的精度和适应性;考虑到生成模型类预测方法的预测性能受限于强假设性及参数拟合过程缺乏未来流行度的指导学习,通过设计随机森林回归器学习得到预测比例因子,将特征驱动类方法的优势融汇到生成模型类预测框架中,使之在刻画能力和预测能力之间寻求平衡。2.分别从“事件”粒度和“时间”粒度的角度,研究流行度演化趋势预测方法。基于“事件”粒度,提出一种自激励点过程驱动的消息动态转发数预测方法;基于“时间”粒度,针对内容流行度演化过程的强异质性,单一的时间序列预测模型很难同时捕获各类流行度动态演化模式,通过应用多类回归器和各子模型的历史预测性能,生成各子模型的预测值的组合权重,建立融合多个传统时序模型(ARIMA、M-L、SVR)的预测能力的组合预测框架,该模型可以根据各子模型的即时预测性能不断调整组合权重,从而适应演化模式的动态变化。两类预测模型分别应用于Twitter、Last.fm、MovieLens、Flickr及Amazon等真实的社交网络数据集,所提模型均实现优于现有模型的预测性能,基于时间序列的组合预测模型的平台适用性也得到验证。本研究为进一步实现对社交网络热点话题跟踪、研究宏观舆论演化提供基础。3.建立基于表征学习的级联增量预测方法。该模型直接从级联网络原始数据中自动学习级联的时域及拓扑结构特征,克服传统的特征驱动方法中人工构造特征的局限性;并利用级联时域特性和拓扑结构特性的互补性,提出注意力引导的时空耦合机制,分别利用时域信息和拓扑结构信息互相监督其组合权重的生成,以实现对级联时空信息的“结构化”,有利于更有效的模型训练,增强级联预测模型的刻画及预测能力。在两个真实的应用场景—Twitter中推文的转发增量预测和学术论文被引次数预测—中进行的实验表明,该预测模型在预测准确度上优于已有的级联预测模型,此外,级联时域信息和空间拓扑信息的互补性,时空耦合的注意力机制设计合理性也都得到验证。4.研究社交网络内容的相对流行度预测方法。首先,建立基于个体行为偏好的二部图模型,该模型中不同类型的微观偏好被抽象为不同权值的边;然后,针对网络偏好的微观性与宏观性的关联问题,从聚合微观偏好角度出发,建立融合社交网络流行度增长机制的正则化框架,实现宏观偏好排序。在真实的社交网络数据集中的实验表明,该模型可实现更好的流行度排序能力,分别表现在流行度全局排序、对不同热度的内容的排序以及热点内容的早期预警等任务,正则化项设计的合理性也得到验证。本研究为社交搜索和推荐系统等应用领域提供有力的研究工具,在经济和网络价值发掘的实践中,有广泛的意义和价值。
其他文献
通过免疫组化及流式细胞仪计数等方法 ,观察生后 P0 ~ P3 0 0 大鼠海马中血红素氧化酶 -1蛋白阳性细胞的形态、数量与比例变化 ,研究血红素氧化酶 -1蛋白在大鼠海马中的发育表
目的:探讨药品不良反应(ADR)发生的特点及规律。方法:采用描述性研究方法,对我院2008年1月~2009年12月上报的93例头孢菌素类药物ADR报告进行统计、分析。结果:皮试液的选择有3种情
本文将中国上市公司因财务状况异常而被特别处理(ST)作为企业陷入财务困境的标志,采用主成分分析方法确定模型变量,并利用多元判别分析、Logistic 回归和改进型 BP 神经网络
以“循化红”线辣椒为试材,研究了修剪对线辣椒产量及品质的影响。结果表明:线辣椒通过修剪可以提高红椒数,即提高线辣椒的商品率,但产量低于对照,主要原因是线辣椒种植密度
<正>习惯性违章,是指在安全管理和施工过程中习以为常的、违反《电力建设安全与环境管理规定》、《电力建设安全工作规程》和有关规章制度的行为。资料显示,电力施工企业所发
1895年甲午中日战争结束后,日本国力提升,开始向军国主义乃的道路迈去。在文学方面,也出现了短暂的繁荣,要求吸取欧美之精华,创造出值得在全世界炫耀的日本国民特有的文学,期
在国际实践中,PSA方法已广泛应用于核电厂的设计、运行和维修等各个领域,对促进核电行业的发展起到了非常重要的作用,并已经被公认为安全分析的有效工具。为此在核电站安全管
近年来,"科教兴国"作为国家战略已经得到全面、深入实施,我国高等教育迎来了一个高速发展的时期。为提高办学效益和整体实力,各高校积极加大资金投入,进行新校区建设,工程建
<正>岁末年初是诈骗案件的高发时期,尤其是电话、网络、短信等电信诈骗,更是值得警惕。据了解,中国银行云南省分行作为反信息诈骗先锋单位,除配合公安机关打击犯罪之外,还坚
近年来,随着我国国民经济的不断发展,同时在建筑行业超常规建筑的层出不穷,高大模板支撑体系作为保障各类常规建筑顺利实施的基础得到广泛应用,但是随着高大模板支撑体系失去