论文部分内容阅读
〔摘 要〕本文以新浪微博平台为数据采集平台,对微博信息传播的影响因素和效果进行数据分析,在借鉴信息传播四要素和流行三要素的基础上,总结出了影响微博信息传播的16个因素。首先通过对“风云人气榜”上随机抓取的320个新浪微博用户数据进行多元线性回归预测,实证得到粉丝数、工作时间和发布时间对微博信息传递有促进作用,而活跃度、休息时间和日期对信息传播有阻碍作用;然后利用爬取数据中提取的441 005个转发样本,通过逻辑回归、朴素贝叶斯和贝叶斯网络的概率模型分析,实证了社交类型对用户微博转发行为的影响最为显著,微博社交需求显著高于内容需求,并且根据ROC曲线得出综合类型对用户微博转发行为的预测最为精准。
〔关键词〕新浪;微博信息;传播效果;回归分析;效果预测;影响因素
DOI:10.3969/j.issn.1008-0821.2016.03.004
〔中图分类号〕TP393 〔文献标识码〕A 〔文章编号〕1008-0821(2016)03-0022-05
〔Abstract〕In this paper,the influence factors and results of the data acquisition are analyzed based on Sina Weibo platform,summed up the 16 factors that affect the microblogging information dissemination,on the basis of the four elements and draw on the dissemination of information on the prevalence of the three elements.First,through the“Storm popularity list”of 320 randomly grab Weibo user data multiple linear regression forecasting,empirical get the number of fans,working time and release time on the microblogging messaging promote the role and activity,rest the time and date have hindered the spread of information.Then take the data extracted from the 441005 forwarding samples,through logistic regression,Naive Bayesian and Bias network probability model analysis,empirical social types of user microblogging forwarding behavior is the most significant,the social needs of micro blog is significantly higher than the content needs,according to the ROC curve to get the comprehensive type of user microblogging forwarding behavior prediction is the most accurate.
〔Key words〕sina;micro blog information;dissemination effect;regression analysis;effect prediction;influence factors
据中国互联网络信息中心《第36次中国互联网发展状况统计报告》称,截至2015年6月,我国网民规模达668亿,互联网普及率为488%,微博用户为20432亿,网民使用率为306%,而使用新浪微博的用户占694%,微博俨然成为广大网民网络社交的重要聚集地。由于微博信息传播速度快,影响面广,信息产生的舆论控制难,研究和总结微博信息传播的影响因素已成为学者的重点工作,国内外专家对此进行了大量的研究。文献[1]通过调查微博记录中信息的扩散情况,研究得出微博的影响度与用户的影响度和粉丝数有直接关系;文献[2]对新浪微博进行测量统计分析,得出微博热度与用户粉丝数成正相关;文献[3]提出了一种新颖的方法分析微博信息传播网络的属性,基于信息分散、信息聚集、信息传递3种关系分析了信息传播网络的演变情况;文献[4]根据微博中用户发表、浏览、回复和转发博文的基本行为,提出了微博信息传播的竞争窗口模型,并例证了信息的动态传播;文献[5]从实证的角度出发,探究了微博信息传播的纵向效果,应征了微博因共同兴趣、爱好聚集的观点,得出了微博信息传播效果随层次增加而衰减的规律;文献[6]研究用户的在线行为以及微博信息的传播规律,提出基于用户属性、社交关系和微博内容三类综合特征,使用机器学习的分类方法,对给定微博的用户转发行为进行预测。传播的路径也是影响微博信息快速转发的重要因素,导致微博信息迅速传播的因素是每层转发人数不断递增,转发路径呈裂变方式发展[7-9]。为了进一步研究和探索微博信息传播的影响因素,从根本上揭示微博信息传播效果,本文以新浪微博平台作为研究的数据基础,对微博信息传播进行例证分析,为微博信息传播效果的预测奠定基础。
1 微博信息传播的特征
微博是一个用户信息分享、传播和获取的平台,通过关注、粉丝、评论、转发等功能实现信息的传播和共享[10]。在互联网信息传递的过程中,微博担负了重要的角色。由于其推发便捷,图文并茂的功能使其成为社交网络中交互最为广泛的平台。微博中信息的传播有两个途径,一个是靠博主的粉丝传播路径;另一个是转发路径,任何一个路径都可以实现信息的网式传播,这种传播可以看作是一个拓扑结构,结构包括节点、边和网络3个方面,在微博信息传播的结构中用户就是节点,用户间的关系即为边,拓扑网络即为微博信息的传播路径。 若定义G={V,E,W}为传播图,W为传播节点的影响力集合,E表示微博传播的所有路径集合。下图β为微博的发布者,δ1为微博信息传播过程中的传播节点。当节点δ1转播了微博的发布者β的原贴后就生成了一条由β指向δ1的有向链,当δ2又转发了δ1所转发的微博时,又生成一条由δ1指向δ2的有向链,以此类推形成一个从微博的发布者β为中心,层层扩散的级联传播网式拓扑结构,图1为微博信息传播的结构与路径示意图。
2 微博传播影响因素分析
根据文献[11]的概述,涉及信息的传播有四要素:信源、信宿、信道和信息,与此相对应的微博信息传播的主要因素有:微博信息传播者、传播受体、传播渠道和传播环境。微博信息作为一种涉人涉事的流行事物,依据马尔科姆·格拉德威尔流行三要素的阐述,需要具备3个基本要素:个别人物法则、附着力因素法则和环境威力法则。本文在借鉴前人研究结果的基础上,认为影响微博传播的主要因素有:个别人物、所处环境以及微博内容附着力。影响微博信息传播的主要因素如图2所示。
按照流行的三要素理论及微博传播因素的划分,本文从原始数据中提取出影响微博信息传播的可以从原始数据中提取出16个变量如表1所示。
3 微博传播效果预测
31 传播效果多元线性回归预测
为了对微博传播效果进行预测和分析,本文在新浪微博“风云人气榜”上随机抓取320个用户。截取了2015年8月17日至2015年8月23日时间段内的数据,其中微博总数量为4 524条,以转发数量y为因变量,以粉丝数x、活跃度fact、工作时间τ1、休息时间τ2、日期τ3和当前微博发布时间时间τ为自变量,根据上文的分析建立微博传播效果计算公式:
由表2中回归分析结果的数据情况,可以得到:
(1)自变量粉丝数x对因变量的影响是最显著的,平均每增加10 000个粉丝数就会多大约8次的转发。
(2)自变量活跃度fact、休息时间τ2和日期τ3对因变量转发数量的影响均为负的,即上述3个自变量的值变大时转发量会减小,而粉丝数、工作时间和发布时间3个变量对转发数量的影响是正的。
(3)工作时间与休息时间相比,工作期间对微博转发量的影响更大。
32 传播效果概率预测
传播效果的概率预测指的是利用用户转发的概率大小进行微博信息传播效果预测,设微博关注有向网络为G〈U,E〉,U为传播网络中所有博客的集合,E为传播网络中的关系集合,博客u0在时刻t发布或转发某微博信息,经过层层转发,传播到了un,则将该微博的传播路径记为P〈u0,u1,…,un〉,如果博客u关注了传播者un,那么用p来表示博客u转发un所转发此条微博概率。
本文从爬取的数据中提取出441 005个转发样本,将全部样本划分为训练集和测试集,采用逻辑回归、朴素贝叶斯、贝叶斯网络预测方法,其中贝叶斯方法需要估算每个因子的类条件概率密度。本文采用非参数方法对总体分布密度函数进行估计,计算方法如式(8)所示:
4 结 论
本文在概述了新浪微博信息传播特征的基础上,总结了信息传播网络的结构和典型类型的特点,然后针对影响新浪微博信息传播的因素进行分析,总结了流行三要素与传播特征可以提取的16个因素变量,并对各变量的提取依据和计算方法进行了分析说明,通过多元线性回归预测分析概率模型分析,得出粉丝数量是决定传播效果的主要因素,同时工作时间和发布时间对微博信息传递也有促进作用,通过逻辑回归、朴素贝叶斯和贝叶斯网络的概率模型分析,实证了社交类型对用户微博转发行为的影响最为显著。
参考文献
[1]Kim J W,Candan K S,Tatemura J.Efficient overlap and content reuse detection in blogs and online news articles[C]∥Proceedings of the 18th international conference on World wide web.ACM,2009:81-90.
[2]张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析[J].西安交通大学学报,2013,47(2):124-130.
[3]王晓明,王莉,杨敬宗.微博信息传播网络的结构属性分析[J].中文信息学报,2014,28(3):55-60.
[4]WU Ming,GUO Jun,XIE Jian-jun.Social media communication model research based on Sina-weibo[C]∥Proc of the 6th International Conference on Intelligent Systems and Knowledge Engineering.Berlin:Springer-Verlag,2011:445-454.
[5]陈远,袁艳红.微博信息传播效果实证研究[J].信息资源管理学报,2012,(3):28-34.
[6]曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-788.
[7]KWAK H,LEE C,PARK H,et al.What is Twitter,a social network or a news media[C]∥Proc of the 19th International Conference on World Wide Web.New York:ACM Press,2010:591-600.
[8]TIAN Zhan-wei,ZHANG Qing-pu.Empirical analysis of microblog information flow features bases on complex network theory[J].Advances in Information Sciences and Service Sciences,2012,4(7):163-171.
[9]沈珂轶.社会网络的社团发现与动态特性研究[D].上海:上海交通大学,2011.
[10]袁毅.微博客信息传播结构、路径及其影响因素[J].图书情报工作,2011,55(12):26-30.
[11]邢雨晴,刘红翠,周瑞,等.微博信息传播模式及其应用的实证研究的文献综述[J].中国外资,2012,(18):275-277.
(本文责任编辑:郭沫含)
〔关键词〕新浪;微博信息;传播效果;回归分析;效果预测;影响因素
DOI:10.3969/j.issn.1008-0821.2016.03.004
〔中图分类号〕TP393 〔文献标识码〕A 〔文章编号〕1008-0821(2016)03-0022-05
〔Abstract〕In this paper,the influence factors and results of the data acquisition are analyzed based on Sina Weibo platform,summed up the 16 factors that affect the microblogging information dissemination,on the basis of the four elements and draw on the dissemination of information on the prevalence of the three elements.First,through the“Storm popularity list”of 320 randomly grab Weibo user data multiple linear regression forecasting,empirical get the number of fans,working time and release time on the microblogging messaging promote the role and activity,rest the time and date have hindered the spread of information.Then take the data extracted from the 441005 forwarding samples,through logistic regression,Naive Bayesian and Bias network probability model analysis,empirical social types of user microblogging forwarding behavior is the most significant,the social needs of micro blog is significantly higher than the content needs,according to the ROC curve to get the comprehensive type of user microblogging forwarding behavior prediction is the most accurate.
〔Key words〕sina;micro blog information;dissemination effect;regression analysis;effect prediction;influence factors
据中国互联网络信息中心《第36次中国互联网发展状况统计报告》称,截至2015年6月,我国网民规模达668亿,互联网普及率为488%,微博用户为20432亿,网民使用率为306%,而使用新浪微博的用户占694%,微博俨然成为广大网民网络社交的重要聚集地。由于微博信息传播速度快,影响面广,信息产生的舆论控制难,研究和总结微博信息传播的影响因素已成为学者的重点工作,国内外专家对此进行了大量的研究。文献[1]通过调查微博记录中信息的扩散情况,研究得出微博的影响度与用户的影响度和粉丝数有直接关系;文献[2]对新浪微博进行测量统计分析,得出微博热度与用户粉丝数成正相关;文献[3]提出了一种新颖的方法分析微博信息传播网络的属性,基于信息分散、信息聚集、信息传递3种关系分析了信息传播网络的演变情况;文献[4]根据微博中用户发表、浏览、回复和转发博文的基本行为,提出了微博信息传播的竞争窗口模型,并例证了信息的动态传播;文献[5]从实证的角度出发,探究了微博信息传播的纵向效果,应征了微博因共同兴趣、爱好聚集的观点,得出了微博信息传播效果随层次增加而衰减的规律;文献[6]研究用户的在线行为以及微博信息的传播规律,提出基于用户属性、社交关系和微博内容三类综合特征,使用机器学习的分类方法,对给定微博的用户转发行为进行预测。传播的路径也是影响微博信息快速转发的重要因素,导致微博信息迅速传播的因素是每层转发人数不断递增,转发路径呈裂变方式发展[7-9]。为了进一步研究和探索微博信息传播的影响因素,从根本上揭示微博信息传播效果,本文以新浪微博平台作为研究的数据基础,对微博信息传播进行例证分析,为微博信息传播效果的预测奠定基础。
1 微博信息传播的特征
微博是一个用户信息分享、传播和获取的平台,通过关注、粉丝、评论、转发等功能实现信息的传播和共享[10]。在互联网信息传递的过程中,微博担负了重要的角色。由于其推发便捷,图文并茂的功能使其成为社交网络中交互最为广泛的平台。微博中信息的传播有两个途径,一个是靠博主的粉丝传播路径;另一个是转发路径,任何一个路径都可以实现信息的网式传播,这种传播可以看作是一个拓扑结构,结构包括节点、边和网络3个方面,在微博信息传播的结构中用户就是节点,用户间的关系即为边,拓扑网络即为微博信息的传播路径。 若定义G={V,E,W}为传播图,W为传播节点的影响力集合,E表示微博传播的所有路径集合。下图β为微博的发布者,δ1为微博信息传播过程中的传播节点。当节点δ1转播了微博的发布者β的原贴后就生成了一条由β指向δ1的有向链,当δ2又转发了δ1所转发的微博时,又生成一条由δ1指向δ2的有向链,以此类推形成一个从微博的发布者β为中心,层层扩散的级联传播网式拓扑结构,图1为微博信息传播的结构与路径示意图。
2 微博传播影响因素分析
根据文献[11]的概述,涉及信息的传播有四要素:信源、信宿、信道和信息,与此相对应的微博信息传播的主要因素有:微博信息传播者、传播受体、传播渠道和传播环境。微博信息作为一种涉人涉事的流行事物,依据马尔科姆·格拉德威尔流行三要素的阐述,需要具备3个基本要素:个别人物法则、附着力因素法则和环境威力法则。本文在借鉴前人研究结果的基础上,认为影响微博传播的主要因素有:个别人物、所处环境以及微博内容附着力。影响微博信息传播的主要因素如图2所示。
按照流行的三要素理论及微博传播因素的划分,本文从原始数据中提取出影响微博信息传播的可以从原始数据中提取出16个变量如表1所示。
3 微博传播效果预测
31 传播效果多元线性回归预测
为了对微博传播效果进行预测和分析,本文在新浪微博“风云人气榜”上随机抓取320个用户。截取了2015年8月17日至2015年8月23日时间段内的数据,其中微博总数量为4 524条,以转发数量y为因变量,以粉丝数x、活跃度fact、工作时间τ1、休息时间τ2、日期τ3和当前微博发布时间时间τ为自变量,根据上文的分析建立微博传播效果计算公式:
由表2中回归分析结果的数据情况,可以得到:
(1)自变量粉丝数x对因变量的影响是最显著的,平均每增加10 000个粉丝数就会多大约8次的转发。
(2)自变量活跃度fact、休息时间τ2和日期τ3对因变量转发数量的影响均为负的,即上述3个自变量的值变大时转发量会减小,而粉丝数、工作时间和发布时间3个变量对转发数量的影响是正的。
(3)工作时间与休息时间相比,工作期间对微博转发量的影响更大。
32 传播效果概率预测
传播效果的概率预测指的是利用用户转发的概率大小进行微博信息传播效果预测,设微博关注有向网络为G〈U,E〉,U为传播网络中所有博客的集合,E为传播网络中的关系集合,博客u0在时刻t发布或转发某微博信息,经过层层转发,传播到了un,则将该微博的传播路径记为P〈u0,u1,…,un〉,如果博客u关注了传播者un,那么用p来表示博客u转发un所转发此条微博概率。
本文从爬取的数据中提取出441 005个转发样本,将全部样本划分为训练集和测试集,采用逻辑回归、朴素贝叶斯、贝叶斯网络预测方法,其中贝叶斯方法需要估算每个因子的类条件概率密度。本文采用非参数方法对总体分布密度函数进行估计,计算方法如式(8)所示:
4 结 论
本文在概述了新浪微博信息传播特征的基础上,总结了信息传播网络的结构和典型类型的特点,然后针对影响新浪微博信息传播的因素进行分析,总结了流行三要素与传播特征可以提取的16个因素变量,并对各变量的提取依据和计算方法进行了分析说明,通过多元线性回归预测分析概率模型分析,得出粉丝数量是决定传播效果的主要因素,同时工作时间和发布时间对微博信息传递也有促进作用,通过逻辑回归、朴素贝叶斯和贝叶斯网络的概率模型分析,实证了社交类型对用户微博转发行为的影响最为显著。
参考文献
[1]Kim J W,Candan K S,Tatemura J.Efficient overlap and content reuse detection in blogs and online news articles[C]∥Proceedings of the 18th international conference on World wide web.ACM,2009:81-90.
[2]张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析[J].西安交通大学学报,2013,47(2):124-130.
[3]王晓明,王莉,杨敬宗.微博信息传播网络的结构属性分析[J].中文信息学报,2014,28(3):55-60.
[4]WU Ming,GUO Jun,XIE Jian-jun.Social media communication model research based on Sina-weibo[C]∥Proc of the 6th International Conference on Intelligent Systems and Knowledge Engineering.Berlin:Springer-Verlag,2011:445-454.
[5]陈远,袁艳红.微博信息传播效果实证研究[J].信息资源管理学报,2012,(3):28-34.
[6]曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-788.
[7]KWAK H,LEE C,PARK H,et al.What is Twitter,a social network or a news media[C]∥Proc of the 19th International Conference on World Wide Web.New York:ACM Press,2010:591-600.
[8]TIAN Zhan-wei,ZHANG Qing-pu.Empirical analysis of microblog information flow features bases on complex network theory[J].Advances in Information Sciences and Service Sciences,2012,4(7):163-171.
[9]沈珂轶.社会网络的社团发现与动态特性研究[D].上海:上海交通大学,2011.
[10]袁毅.微博客信息传播结构、路径及其影响因素[J].图书情报工作,2011,55(12):26-30.
[11]邢雨晴,刘红翠,周瑞,等.微博信息传播模式及其应用的实证研究的文献综述[J].中国外资,2012,(18):275-277.
(本文责任编辑:郭沫含)