社交媒体上消息流行度预测算法的研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:jianjian9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,随着移动互联网的普及与发展,使得为人们提供自由创作与内容分享的平台--社交媒体跨入了一个新的发展阶段,它已然成为人们日常生活中不可或缺的一部分。社交媒体上存在海量信息,这些信息通过被浏览、转发、点赞等方式获取用户的关注,同时带来了大量的流量,而用户对内容的关注分布是有偏的,即少量的内容获得了大量的关注。于是,预测社交媒体上消息的流行度就成为了一个十分有价值的研究问题,对于在线广告投放、在线营销等都具有重要的意义。本文首先介绍了社交媒体与流行度预测的国内外研究现状和与本文工作相关的技术基础,接着以twitter上的tweet作为研究对象,提取一些可能与转发量相关的特征进行研究,利用逻辑回归分类器和使用修改后的疾病传播模型,提出了解决社交媒体上消息流行度预测问题的解决方案。本文的主要工作有以下两点:1.提出一种基于分类的tweet转发量预测算法。它以tweet发布者粉丝数、发布时间、首次转发时间、早期转发时间间隔、早期转发用户的最大粉丝数、早期转发用户的平均粉丝数等6个特征为输入参数的逻辑回归分类器,用于对tweet进行分类预测,判断它是否属于Top20高转发量tweet,最终分类准测率为0.77。使用PCA分析上述6个特征并上转发量后的特征集合,发现将特征数据压缩至2维后,各特征往新的特征空间中的投影向量与转发量的投影向量的余弦值的绝对值大小与特征的重要程度是相关的,其中近似为1的有3个特征,它们的单特征预测分类准确性相较于其他特征更高。2.提出一种基于疾病传播模型的流行度预测算法,用于对tweet未来转发量进行数值预测。对于疾病传播模型进行了适当修改,添加了时间对用户转发兴趣的影响,以时间衰减函数来进行表示。在应用于对tweet的转发量预测上,时间函数特例化为一个幂函数。以算法预测值与实际转发量的平方残差为目标函数,使用LM算法训练参数。将本文算法与基准算法在twitter数据集上进行对比实验。实验结果表明,基于疾病传播模型的流行度预测算法相较于对比算法在高流行度的推文预测上更为准确(Top25推文的预测值MRE提升12.4%),且可以模拟流行度变化的动态过程。
其他文献
文章通过分析领导者与决策之间的关系,阐述了决策必须掌握的六大原则和领导必须具备的五项素质。领导者要增强党性修养,加强理论学习,从而确保决策科学化民主化的实现。
我省作为全国重点林区,坚持弘扬生态文明,加快生态省建设.“十一五”期间,全省森林覆盖率持续保持全国第一。
文章阐述跨学科的内涵及其研究的现实意义,分析其在研究生创新人才培养中的必要性和重要性,探讨跨学科联合培养体系的构建问题,为跨学科研究生培养提供理论依据。
水利工程砌体结构有其特殊性,运行中裂缝的产生原因有很多方面,本文就其中主要方面提出自己看法,同时从设计、施工、全过程质量控制提供了有效地、操作性很强的建议。
铝蜂窝复合材料作为一种新型材料,具有轻质高强的结构。对铝蜂窝复合材料的平拉性能、压缩性能、剥离强度等基本力学特性进行试验研究,试验结果表明:铝蜂窝客车底板具有比其
从规范林木采伐指标分配、建立林业服务中心、改革林业行政执法体制和林业融资担保四方而入手,分析了福建省尤溪县在集体林权制度配套改革中存在的问题,提出了相应对策。
森林资源是重要的自然资源和战略资源,是建设生态海西的前提和基础。保护森林资源,维护辖区社会治安秩序是各级政府的责任,也是森林公安机关的职责所系。本文结合开展非法占用林
本文对数学思维发展的规律作初步探讨。内容主要论述了6个规律:1.协调统一;2.循序渐进;3.精确简单;4.证明反驳;5.转换目标;6.模式表示。
社会改革的不断发展,对高校思想政治工作提出了更新更高的要求。改革给社会带来了深刻的变化,它不仅带来了社会结构和人们经济生活的重大变化,而且也带来了人们思想观念的重
<正> 江泽民同志在去年纪念“五四运动”讲话中指出:“青年知识分子在我国知识分子队伍中已占到将近半数,他们已经和即将在各项事业中挑起重担。他们能否健康成长在很大程度