高校BBS教育舆情的时空特征模型构建和热点发现

来源 :现代情报 | 被引量 : 0次 | 上传用户:wumdk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕自媒體时代网络舆情的治理与引导在时、效、度3个维度都面临着巨大的挑战。针对高校BBS教育舆情,运用网络测量学技术对自动采集到的南京大学小百合BBS相关数据集加以分析,构建了教育舆情的时空特征模型。该模型显示,测量舆情的空间特征和多个时间特征能够有效快速发现热点信息。实验证明,高校BBS教育舆情总体分布比较稀疏,单日活跃用户数并不高,并且热点信息相对较少、利用显著的时空特征易于检测。
  〔关键词〕教育舆情;网络测量学;时空特征模型;热点发现
  DOI:10.3969/j.issn.1008-0821.2016.01.015
  〔中图分类号〕G25073〔文献标识码〕A〔文章编号〕1008-0821(2016)01-0084-07
  〔Abstract〕The governance and guidance of public opinion on Internet self-media are facing with big challenge in three dimentions of time effect and degree.For educational public opinion on university BBS,the network measurement technology is applied to analyze the related dataset,which is gathered automaticly from Nanjing University Lily BBS for a half year.A spatial-time feature model for educational public opinion is built,which indicates that it is effective to rapidly detect hot opinion from spatial and multiple time features.Experiments showed that educational public opinion on university BBS distributes very sparse,related day active user number is not high,hot opinion is relatively few and easy to be detected from its prominent spatial-time features.
  〔Key words〕educational public opinion;network measurement;spatial-time feature model;hot opinion detection
  自媒体时代网络舆情的治理与引导在时、效、度3个维度都面临着巨大的挑战。自媒体的特点是以用户生成内容和共享为主,但内容可信度低,影响力无法确定。由于网络空间的开放性,我们无法事先预知自媒体上舆情传播演变的时空特征,也就无法确定监控的重点和引导时机,所以在线实时监测成为一个难题。
  自媒体中的论坛采用了主回帖关联的组织方式,没有用户关联功能,而且内容采用目录方式呈现,结构相对简单,所以基于论坛的在线实时监测相对容易实现。由于论坛的开发技术相异,如开源的Discuz、BBSXp等,工业界的软件难以通用。加之针对高校BBS的实时监测和预警软件相对较少,所以亟需开发针对性的软件为校园管理提供辅助支撑。
  1相关理论基础与研究进展
  2011年舆情行业被称为朝阳行业。围绕网络媒体的话题检测与跟踪、热点话题发现、意见领袖挖掘等舆情问题得到了充分研究。相关的网络测量学、自然语言处理、文本特征表示、机器学习、社会网络分析等理论和算法为内容自动监控提供了重要支持。
  网络测量学是利用网络爬虫采集数据,对整体网络开展舆情定量统计、整体监测和趋势分析。樊鹏翼等人[1]对新浪微博进行了网络测量,得到小世界拓扑特征和用户发博时间的周分布模式。徐恪等人[2]全面综述网络测量学的相关技术,阐述了大数据分析在线社交网络的舆情演化、拓扑结构和用户行为的可行性和典型方法。上述研究拓展了舆情治理和引导的时、效、度的研究视野,不再停留于历史抽样的文本数据分析和概念层面。
  很多学者从传播学角度研究网络舆情的传播过程和规律,发现热点。以高校BBS热点发现的相关研究为例,兰凯梅[3]以主帖的回帖数、用户数和人气数的加权之和作为主题帖的热度;罗泰晔[4]根据发帖量定义活跃用户,利用用户回复关系计算点出入度,由此区分活跃用户的4种类型;乔文妤等人[5]统计发帖数、回帖数和回复率,发现信息的数量规模和活跃话题存在长尾效应,能够确定出信息传播的关键节点。王君泽等人[6]指出王青从舆情热度、强度、倾度和生长度4个指标来评价舆情,但已有网络舆情指标体系还不完善,直接影响舆情研判和预警。
  热点信息挖掘常见的做法是:通过文本分析提取语义特征、特征表示之后,聚类归纳出主题。其中,语义特征是基于“词是文本的最小语义单位”来提取的。目前,国内学者广泛应用的自然语言处理二次开发接口有NLPIR/ICTCLAS汉语分词、Lucene分词引擎等,效果都很好。语义特征表示模型主要有向量空间模型VSM、隐含主题概率模型LDA。VSM以词频统计值如TF、TF-IDF或布尔型值作为词语权重表示文本。VSM表示容易实现,应用广泛。例如,刘骅等人[7]采用布尔型值作为词语权重表示文本,通过凝聚式层次聚类法分析BBS“每日十大热门话题”标题共同的热点;兰凯梅采用网络爬虫收集论坛文本,用TF-IDF值作为词语权重表示文本,应用多中心增量聚类来发现主题帖热点。VSM存在的问题是,会丢失词语之间的语义关联信息,导致文本聚类结果不够准确。与之相比,LDA在文本和词之间增加了主题层,以主题分布概率作为主题权重表示文本,所以效果优于VSM。比如黄炜[8]就是采用LDA聚类算法感知舆情事件的热点。上述研究都局限于对历史数据进行线下的主回帖关联分析,无法及时反映网络舆情的实时变化。   1国内外很多公司、科研单位和媒体本身开展舆情研究,积极应对信息安全和市场营销的需要,形成了相应的舆情监控软件。例如,国外的Buzzlogic、Radian6、TNS Cymdony、Trackur、Reputation Defender等,用于公司、产品、品牌在网页上的影响力监测。在国内,中科点击的军犬、优捷信达的Rank、红麦聚信的红麦等软件,用于政府、企业等单位舆情重点监控;融尚Winshield、互普威盾、欧克深信服、天锐网络警、网络幽狗、网猫等软件,主要针对上网行为、聊天内容、邮件等进行监控。已有的监控工具或软件是通用的,没有专门的面向教育领域的设计,缺乏针对性。
  基于专用软件的缺乏及网络舆情指标体系不完善的现状,本研究试图运用网络测量学技术解析高校BBS教育舆情传播的时空特征,为热点发现、实时监控提供支持。
  2研究框架
  本研究的基本思路是:首先,对南京大学小百合BBS的教育主题相关的主题帖进行自动采集;然后对采集得到的教育舆情数据集进行统计测量,建立时空特征模型;再依据该模型测量新数据,以发现舆情热点和演变趋势。
  本研究的技术路线是:首先,基于网络爬虫构建教育舆情采集算法,获得论坛空间2013年11月2日至2014年5月10日之间的教育主题帖数据集;然后,运用网络测量学技术分析教育舆情,构建一个时空特征模型;最后,运用时空特征指标进行舆情测量,发现热点和引导时机。
  3教育舆情采集算法
  本研究以兰凯梅的网络爬虫算法为基础,根据南京大学的小百合BBS的信息组织结构对该算法进行了相应的调整,形成本研究的教育舆情采集算法。通过页面爬行、页面解析、文本结构化等步骤得到教育舆情数据集。
  31采集算法流程
  本研究的采集算法流程如图2所示。其中,初始URL设为各个讨论区的汇总页面,即“全部讨论区”页面URL。经过顺序爬行得到各个讨论区首页URL,然后并行爬行讨论区首页URL及其主题帖页面URL。
  每个讨论区首页采用主题模式和一般模式两种呈现方式。主题模式以主题帖为单位显示,主题帖包含主帖及其回帖等全部内容。一般模式以用户帖子为单位显示,主帖及其回帖分离,需要通过帖子页面中“同主题阅读”才能相互关联。因此本研究采用主题模式直接找到关联的主回帖内容。
  页面分析包括内容和链接的解析和评价:解析是利用CHttpFile API接口读取页面文件,然后定位HTML标签,提取出主题帖信息,包括标题、作者、正文、发表时间、人气数、回帖数等,存储到结构化的主题帖数据库中;评价包括时间相关、主题相关和重复数据过滤。主题相关通过标题和正文中预设主题词的词频统计进行过滤,词频越大,相关度越大,页面越重要。本研究选取教育相关的一些主题词,如学术、讲座、考试、奖学金等,从而聚焦到关于师生权益、校园声誉等方面的教育舆情监控。
  32并行采集策略
  由于论坛帖子数量庞大,而顺序爬行耗时长、时效差,所以采用并行爬行加速。如果URL队列中的元素不存在爬行的顺序依赖关系,可以认为URL具有独立性,可以并行爬行和解析。论坛上能并行爬行的URL有两类:一类是各个讨论区首页的URL;另一类是各个主题帖页面的URL。据此设计了两类线程,实现同进程下的多线程并行算法。
  第一类线程负责爬行和解析一个讨论区首页的URL页面,提取若干主题帖页面的URL和“上一页”的URL。因为“上一页”的URL不符合独立性,只能按顺序逐页爬行。如果页面上不存在“上一页”URL,则该讨论区的爬行结束。讨论区逐页顺序爬行的流程图如图3所示。主题帖的标题是主题相关的,就把该主题帖页面的URL加入到待爬行的URL队列中。
  第二类线程负责解析一个主题帖页面,解析过程采用离线方式。离线方式是下载主题帖页面到本地,留待以后解析。离线方式能够减少页面采样时差,因为主题帖的爬行时刻大致相同,也就是采样时刻近似相等。所有主题帖下载到本地的页面集合构成页面库,相当于某个时刻对论壇的一次快照。与离线方式相比,在线方式边爬行边解析,耗时较长,使得主题帖页面的采样时刻先后相差很大,在此期间会有新帖发布的可能,因此在线方式不能收集到同一个采样时刻论坛的真实数据。
  多线程数量受限于同一个网站的HTTP请求的次数,所以不能过于频繁。经过实验,将多线程数量设置为8个。
  南京大学小百合BBS上共有讨论区459个、用户数60 883个。应用上述算法,采集了2013年11月2日之后190天的教育主题帖,总计帖子数22 054个、主帖数5 172个、转载帖1 781个,涉及约48%的讨论区(223个)、11%的用户(6 944个)。
  4时空特征模型
  采用网络测量学技术分析该数据集上的教育舆情,形成教育舆情的时空特征模型。
  41舆情空间特征
  教育舆情的发帖量在各个讨论区中的分布并不均匀,常常集中在几个讨论区中。数据集的讨论区发帖量统计如图4所示。
  42舆情时间特征
  舆情测量的时间特征如表1所示。
  421生存期、贡献度和活跃度分析
  主题帖的生存期T以小时为单位,分段统计结果如图5所示。T=0的主题帖占778%,表明主帖是没有回帖的;T∈[0,24]的主题帖占912%。这表明,不同主题帖的生存期有很大差异,大部分持续时间短,只有小部分的主题帖具有吸引力,持续时间长。
  422回帖时间间隔分析
  跟踪活跃集S中主题帖的回帖发布的时间间隔,绘制了活跃度降序排名在第1和100位的主题帖回帖时间间隔变化图,如图6所示。图6说明,活跃度低的主题帖的回帖时间间隔大,其线性(红色)趋势线的斜率更大。
  假设,主题帖的回帖时间函数y=f(x),其中x代表回帖的楼号,y代表时刻,f(0)表示主帖的发布时刻。时间函数的一阶差分f′(x)表示相邻两个回帖之间的时间间隔。时间函数的二阶差分f″(x)表示时间间隔差分,即时间间隔变化量,变化量递增说明活跃度下降,反之活跃度上升。利用时间间隔变化量与主题贴的活跃度是负相关的关系,对引导时机的时间窗口进行预测。当时间间隔变化量小于阈值时进入时间窗,当时间间隔变化量大于阈值时离开时间窗。   最后,按照发布时间分24小时统计发帖数,如图7所示。发现,教育舆情活跃的时间段在早上9点到夜间24点,这是监测的重点时域。
  5实验结果
  采用vc和sql server实现了针对南大小百合BBS教育舆情的采集算法和B/S模式的论坛热点跟踪系统。
  51热门讨论区
  统计讨论区的主帖数、回帖数和回复率指标,降序排名,前十名统计如果如表2所示。从主帖数排名发现,“就业”“创业与求职”“兼职工作信息”“实习”等4个板块的信息相对较多,说明这些版块是校园信息发布的重要渠道,信息更新传播快,对BBS的贡献度最大。从回帖数排名发现,“贴图版”“创业与求职”“飞越重洋”3个版块的回应信息多,说明这些版块为学生提供了交流思想的空间。“飞越重洋”具有较高的回复率,说明南大学生对出国留学有非常高的意愿,渴望交流,学校应给予相关指导。在主、回帖数排名前10的讨论区中,贴图版是回复率最高的版块,说明媒体素材的丰富可以促进用户的深度交流,是在校学生交流的主要阵地,应该成为监控的重点。从小百合自身在线人气排序得出的热门讨论区(TOP20)看,尽管“百年好合”“女生天地”等版块排名靠前,但在主、回帖数和回复率的指标上排名并不靠前,因此可以推断这两个版块以围观人数居多,不必过多监控。
  52热门话题
  统计主题帖的回帖数R、参与用户数U、人气数P、转载数,降序排名。排名靠前的热门话题是近期师生共同关心的学习生活事件,包括了用户的个人见解和思想交锋。以2014/5/1和2014/5/7单日发布的帖子为例,排名居首的主题帖如表3所示。从回帖情况看,BBS上没有进行任何干预。
  例如2014/5/1的排名首位的热门主题帖,其回帖情况如表4所示,将“外甥现象”归因于“慈母多败儿”有失偏颇。监测回帖时间间隔,设时间间隔阈值为10分钟。当时间间隔小于阈值时,该主题帖进入监控时间窗。因此,从21楼开始进入监控时间窗,成为预测的引导时机。
  53活跃用户
  统计用户发布的主帖数M、回帖数Ru、获回帖数R(指用户发布的主帖的回帖数),降序排名,数值大于阈值的成为活跃用户。结合用户回复率(Ru/M)以及获得回复率(R/M),将活跃用户细分为发帖型、回应型和领袖型。发帖型是用户回复率极低,回应型是用户回复率极高,领袖型是获得回复率极高。表5罗列给出了2014年3月前4位活跃用户的发帖情况。
  6结论
  高校网络空间中,BBS是教育舆情反映比较集中的平台。高校BBS教育舆情总体分布比较稀疏,主要反映在热门讨论区中。单日活跃用户数(DAU)并不高,南大BBS的DAU平均只有365人/天。活跃度高的主题帖比例很小,该比例在南大BBS上不到78%。这说明,只有少部分主题帖时空特征显著,易于检测。
  本研究根据一所高校BBS教育舆情数据集分析得到时空特征模型,能够有效发现热点,预测引导时机。如果要推广到其他主题的BBS舆情时空特征测量、分析,只要修改采集算法中的页面分析模块就可以实现,修改难度低,工作量比较小。因此,本研究具有一般意义及普适性价值。
  尽管本研究具有在线实时监控舆情的优势,但因为只关注舆情传播的时空特征,没有考虑内容语义分析,使得结果不够全面。进一步的工作可以结合文本内容分析的方法,挖掘重大事件,分析敏感异常舆情。
  参考文献
  [1]樊鹏翼,王晖.微博网络测量研究[J].计算机研究与发展,2012,49(4):691-699.
  [2]徐恪,张赛,陈昊,等.在线社会网络的测量与分析[J].计算机学报,2014,37(1):165-188.
  [3]兰凯梅.BBS热点话题发現与监控系统[D].北京:北京交通大学,2011.
  [4]罗泰晔.高校BBS活跃用户信息行为分析[J].现代情报,2011,31(1):150-152.
  [5]乔文妤,高冕.高校BBS讨论区内信息有序化研究与管理启示——以南京大学小百合网站为例[J].图书情报工作,2013,57(5):116-120.
  [6]王君泽,方醒,杜洪涛.网络舆情分析系统中的支撑技术研究[J].现代情报,2015,35(8):51-56.
  [7]刘骅,朱庆华.基于标题的BBS热点话题挖掘——以南京大学小百合BBS为例[J].现代情报,2013,33(1):162-164.
  [8]黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11.
  (本文责任编辑:郭沫含)
其他文献
知屋漏者在宇下,知政失者在草野。广泛听取群众意见建议,是我们党的一项优良传统。然而,当前有一些領导干部在调研过程中作风虚浮,存在形式主义、官僚主义等问题,既影响了调研的实效,又损害了政府的形象。“断头式”调研惹人厌  调查是为了发现问题,研究就是要为问题解扣。在一些地方,部分领导下基层时声势浩大,走村串户问民情、询民意、问民忧,让群众看到了解决问题的希望。然而,“热闹”过后却没了下文,让群众失去了
在央视节目《朗读者》第三期,著名作家麦家朗读了写给儿子的家书。在现场,他几次哽咽,主持人董卿泪光闪烁,台下的观众也被感动落泪。在这封信中,爸爸告诉儿子:  儿子,当你看到这封信时,你已在我万里之外,我则在你地球的另一端。地球很大,我们太小了,但我们不甘于小,我们要超过地球,所以你出发了。这是一次蓄谋已久的远行,为了这一天,我们都用了十八年的时间作准备;这也是你命中注定的一次远行,有了这一天,你的人
黑木敏幸是日本宫崎县新富町一名淳朴的农民。20岁那年,黑木在樱花烂漫的季节遇到了自己的心上人,一位名叫山口婧子的姑娘。两个人兴趣相投,曾一起约定牵着手周游全世界。婚后,黑木料理着几亩田地,同时养殖奶牛,婧子在家照顾三个孩子,生活得艰辛却温馨。  孩子们都长大成家,黑木和婧子也漸渐老去。那天,望着跟着自己劳累了半辈子的婧子,黑木一脸愧疚地说:“这些年来,我一直未曾忘记我们俩的约定,是时候带你去周游世
贪腐者,多伤亲。一位哲人批判得很深刻:“一个人如果使自己的母亲伤心,无论他的地位多么显赫,无论他多么有名,他都是一个卑劣的人。”  这个道理值得每名党员干部细细琢磨。  就拿前不久被缉捕归案的“百名红通人员”周骥阳来说,在他出逃期间家人写给他的两封公开信让人动容,怨恨里透出的依然是思念和牵挂——  其妹在信中写道:“你回来吧!只有在阳光下的微笑才是真正的人生!让父母亲还能看上你一眼,说几句话。” 
2021年7月1日上午,庆祝中国共产党成立100周年大会在北京天安门广场隆重举行。90岁的黄宝妹党龄将近70年,获得了“七一勋章”的她第一次登上天安门城楼观礼,眼角眉梢满是喜悦:“虽然很激动,但我也知道这个荣誉是大家的。我要更加做好现在能做的,回报党恩。”从旧社会童工到新中国劳模,她是改天换地的见证者  为了让家里人能填饱肚子,黄宝妹13岁就进入日资裕丰纱厂当童工。那时,她凌晨三四点钟就要起床,坐
四年前,英国人类学家汤姆·麦克唐纳来到了一个位于北京与上海之间的偏远小镇。他的目标是研究当地人使用社交媒体的方式——但当地人对他的决定很是困惑。  “他们很不理解为什么会有人愿意住在这样的地方。”麦克唐纳说。对他们来说,这个小镇偏僻落后,人们巴不得离这里远远的,因为这里根本谈不上是什么技术变革的蓬勃发展中心。然而麦克唐纳选择这个小镇正是因为它相对孤立的特点。  很多关于中国互联网的文章都主要聚焦生
1  父亲有很多发小,有权者,有名者,有钱者,多达20余人。与发小比起来,父亲只是一个普通的工厂员工。  据父亲说,他小时候与这些发小关系好得不得了。那个年代,家家户户都在勒紧裤腰带过日子。父亲水性好,年年夏天都到河里捉鱼,捉到鱼,就跟发小分享,发小吃鱼肉,他嚼鱼骨头。家里有了余粮,父亲还送到那些揭不开锅的发小家里。哪个发小要考大学了,父亲就钻到山里捉山鸡、掏鸟蛋、逮兔子,送给发小补身体……  早
德国人的勤奋和严谨世界闻名,但德国人对休假的热诚在世界各国中也名列前茅——企业职工每年大多能享受4周以上的带薪休假,而学生则一年中就有半年在休假。  过去,德国人在假期要么合家去乡间别墅休息,要么远赴海外观光,要么下乡住在农舍里领略田园风光,要么不远百里千里实现家族成员大团聚……虽说度假内容五花八门,但追求却无一例外:通过较为轻松的活动来缓解身躯的疲惫,放松自己绷紧的心弦。  但时下,情况出现了有
重复最多的吉利话是——祝你健康!  健康是众望所归。但健康不是从天上掉下来的,也不是单纯祝愿就能实现的。和世界上的其他好事一样,健康是争取出来的,是建设出来的,是培养出来的,是保卫出来的。  如果把人间比作原野,每个人都是在这片原野上生长着的茂盛植物,这种植物会开出美丽的三色花:一瓣是黄色的,代表我们的身体;一瓣是红色的,代表我们的心理;还有一瓣是蓝色的,代表我们的社会功能。  生理健康,当然令人
1984年6月,以国防部长张爱萍上将为团长、副总参谋长张震为副团长的中国高级军事代表团,应美国国防部长温伯格的邀请访问美国。除了与温伯格举行两国防长会晤,张爱萍还被美军参谋长联席会议主席小约翰·威廉·维西邀请到五角大楼的参谋长联席会议作战指挥室进行会谈。  在双方正式会谈结束后,张爱萍对美方官员说:“还有什么问题你们尽可以提出来。”  美国一位将军用带有质问的口气问道:“50年代初,你们为什么出兵