大数据时代社会化媒体网络舆情挖掘技术研究*

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:jiangjiao610329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘  要]社会化媒体网络舆情挖掘技术是当今大数据时代的一项重要课题。微博、微信等社会化媒体方兴未艾,针对其舆情挖掘已成为研究热点。文章分析了社会化媒体下舆情新特点,提出了社會化媒体舆情挖掘系统的通用架构,并对社会化媒体舆情挖掘面临的现实问题进行了阐述,介绍了当前社会化媒体舆情挖掘关键技术,最后进行技术总结和展望。
  [关键词]社会化媒体  舆情分析  大数据  网络信息技术
  中图分类号:TM715 文献标识码:B 文章编号:1009-914X(2016)28-0296-02
  Research on Network Public Opinion Mining Technology of Social Media in Big Data Era
  Zhang Silong    Wang Lancheng
  (Department of Information Management, Nanjing Political College PLA,  Shanghai  200433)
  [Abstract]Social media network public opinion mining technology is an important issue in the era of big data. The public opinion mining of micro-blog, micro-Chat and other social media have become a research hotspot. Firstly, the social media public opinion in the new characteristics of the proposed general social media public opinion mining system architecture has been analyzed in the article. Secondly, the society of practical problems facing the media public opinion mining is discussed in this paper. The current social media public opinion mining key technologies are introduced. Finally, technical summary and outlook have been discussed.
  [Key words]Social Media; Public Opinion Analysis; Big Data; Network Information Technology
  0、 前言
  社会化媒体平台中大量网络用户的互动性参与,海量媒体信息内容的急剧增长,使得社会化媒体成为大数据研究的重要数据来源。作为一种媒体形态,社会化媒体对社会热点事件十分敏感,事实上,微博、微信等很多平台已经成为热点事件传播的重要媒介。相比传统媒体,社会化媒体往往具有内容简单、发布便捷、传播速度快等特点,它能在短时间内产生海量的舆情信息,一旦这些信息引发了非理性群体性事件,将对社会的安全稳定造成较大的负面影响[1]。因此,在新兴社会媒体对社会影响日渐显著的背景下,对借助大数据技术对舆情信息的充分挖掘,有助于有关部门及时掌握网络舆论动向,营造良好的网络舆论环境,同时对商业情报分析、国家灾难应急响应等方面都具有重要意义。
  1、社会化媒体舆情新特征
  社会化媒体是一组建立在Web2.0的技术和意识形态基础上的、基于互联网的应用,允许用户产生内容(UGC)的创造和交换[2]。社会化媒体的信息产生、交换和再利用都由用户完成,具有显著的公开性、用户参与互动性等特征。同样的,社会化媒体中的舆情信息也是在用户产生内容的创造和交换中衍生而出的,舆情的产生、发展和消退都与用户的参与紧密关联,使得舆情信息的生成与传播呈现出新的特征。
  (1)信息发布自由,来源广泛。相比于传统媒体严格的信息发布机制,社会化媒體允许用户随时随地产生信息、传播信息。移动终端的支持,以及集成了网络通信、摄像、导航定位等多样性服务功能,更加丰富了舆情信息内容。
  (2)信息传播迅速,并呈现层级或爆炸式传播模式。社会化媒体舆情信息的传播不受外界控制,从生成、发布到扩散是由系统在用户关联关系基础上进行实时推送,短时间内即可完成,各阶段不存在明显时间界限。同时,在社会化媒体中存在 “意见领袖”现象,对于某些社会事件往往最先由“意见领袖”有意或无意引入媒体平台,借助平台消息推送等功能进行广泛传播,传播过程往往表现出层级传播模式,即用户最终获取的消息是由媒体部分用户转发得到的,并非第一手的资料。
  (3)信息多元化,舆情离散化。社会化媒体环境下,舆情信息不局限于文本信息,还包括了大量的图片、视频等多媒体信息,同时用户的位置、手机型号等信息都是可作为舆情信息而存在的,用户兴趣、用户关联关系等都使得舆情信息呈现多元化特征。另外,社会化媒体信息传播过程中,讨论的话题往往也是分散的,没有固定的议题“关口”或“渠道”,人人都是传播的主体,也是受众,绝对意义上的传播主体和受众不存在。同时,用户参与议题可以选择多种媒体平台,各个平台间不存在绝对的屏障,可以在任意位置进行跳转并进入另一平台,可以有一对一、一对多等多种信息互动形式。这种议题讨论方式和互动形式使得舆情呈现离散化特征。
  (4)舆情环境复杂多变。互联网技术的发展使得舆情呈现在由传统媒体和社会化媒体共同构成的媒体生态系统中。在这个生态系统中,分布着数量庞大的利益群体或个体,交织着各种利益争斗、情感纠葛,使舆情环境呈现纷繁复杂的格局。同时,互联网媒体平台为东西方意识形态斗争提供了“没有硝烟的战场”,更加剧了舆情环境的复杂多变。   2、 社会化媒体舆情挖掘系统的架构
  必须依靠先进的现代信息自动处理技术建立一套完备的可供实际使用的社会化媒体舆情挖掘系统。为了达到这个目的,需要借鉴和融合情报學、新闻传播学、社会科学、管理学等方面的研究视角和研究方法,具体的,根据用户的不同需求,对特定平台的舆情数据进行采集,通过网页解析、中文分词、词频统计等手段对信息进行预处理,在此基础上通过话题监测与跟踪、关联分析等技术进行信息处理,并实时更新和存储舆情信息,最后向用户提供舆情评估、分析报告等信息服务。具体的系统架构如图1所示。
  (1)舆情数据采集。主要采用基于垂直搜索引擎的主题爬虫技术,对网络平台上的某类主题信息页面进行全自动识别、分类和抓取。
  (2)舆情信息分析。该阶段需要先对采集到的舆情数据进行初步的加工和处理,后续一般采用内容分析法、网络分析法和实证分析法进行设计,涉及大量的技术研究工作,比如话题检测与跟踪、自然语言处理特别是中文信息处理、大数据处理技术等。
  (3)舆情信息服务。舆情信息处理的结果将直接用于提供舆情信息服务,包括舆情评估和分析报告等工作。
  3、 当前研究中面临的现实问题
  社会化媒体产生出海量舆情信息,其中蕴藏着巨大潜力,随着信息技术不断发展,可以从中提取更多有用的信息,但也必须正视当前存在的现实问题,只有突破了现实问题的阻碍,社会化媒体舆情挖掘技术才能有长足进步。
  3.1 舆情数据体量庞大,采集和处理难实时
  社会化媒体所蕴含的信息量正以TB级的数量增加,仅微博一种社会化媒体平台,其每天产生的数据规模就达几千万条[1],当前信息处理技术还无法做到这个数据规模的实时处理。同时,社会化媒体平台往往存在封闭或半封闭式的社区传播模式,即媒体平台内部是一个“圈子”,并不是完全公开的,舆情信息的获取必须进入到“圈子”内部,想要获取整个平台的舆情信息难度很大,甚至几乎不可能,这导致了舆情挖掘的基础性难题。
  3.2 媒体信息多元复杂,舆情处理难自动
  社会化媒体环境下,承载着舆情关键信息内容的海量文本、图片、音频、视频信息等都呈现碎片化特征,即信息生产和传播过程中并不完整,加之用户信息及其关联关系的复杂性,使得舆情信息的多元复杂程度不断加大,舆情数据的处理难度进一步加大,仅仅依靠自动化的计算机语义处理等技术可靠性堪忧,舆情处理工作还需要大量的人工整理分析工作。
  3.3 舆情信息难辨真假,不良信息难监管
  由于媒体平台内部机制的问题,信息生产环节对信息生产者及其发布的信息并没有严格的控制,各种各样的信息在社会化媒体内部不断交流传播,加之信息的发布时间、内容等存在碎片化特征,不完整或片面的信息在不断的转发过程中,容易被有意无意的歪曲事实或断章取义。而参与的用户无法对信息的真实性和准确性进行深入探究,缺乏甄别事实的能力,信息的客观性就会被忽视,各种虚假报道或片面评论就会大量出现,对社会产生不良影响[3]。
  4、 舆情挖掘的关键技术
  4.1 大数据处理技术
  大数据是指常规软硬件平台无法及时感知、处理,必须通过深度挖掘才能创造价值的海量信息,它具有数据量大、增长快、来源广泛等特征。网络舆情数据已成为大数据的重要来源。在大数据环境下,舆情信息总体呈现结构复杂、总量庞大等特点,大量存在的非结构化数据形式,音视频、图片等多媒体信息内容检测,仍是舆情挖掘的难点,同时海量舆情信息中存在大量噪声,进一步加大了舆情挖掘的难度。大数据处理技术的应用可以为舆情挖掘提供新思路新方法。利用大数据多源信息采集技术进行跨平台的热点事件发现和舆情信息融合;大数据使得从微观层面进行细节化、即时化网络个体行为和情绪检测变成了可能;大数据处理技术丰富了舆情分析手段,结合文本信息、多媒体信息、用户兴趣和情绪变化以及舆情大数据社会网络分析,将用户信息、社会网络和舆情信息进行关联分析,以获取更有价值信息。
  4.2 深度语义挖掘技术
  社会化媒体的深度语义挖掘是为了解决网络复杂语义环境中准确提取舆情的问题的。当前比较流行的方法是基于主题模型的方法。主题模型的起源是隐性语义索引(LSI),在LSI的基础上,相继提出了概率隐性语义索引(PLSA)和文档主题生成模型(LDA)等模型,经过不同扩展得到了一系列更为完备的主題概率生成模型[4]。利用主题模型思想有利于对舆情数据进行模型化分析,挖掘潜在的舆情关联模式和变化规律,特别是针对海量的社会化媒体舆情信息多元复杂等特点,面向关联挖掘的主题模型研究工作具有重要理论价值和实际意义。
  4.3 舆情评估和预测技术
  舆情评估的目的是针对特点领域需求对当前掌握的舆情进行评估,并进一步预测舆情走向。主要包括基于内容分析、分类和话题演化的舆情评估方法。内容分析法是情报学中一种对文献内容进行客观、系统和定量的描述的研究方法。一般过程包括建立研究目标、设计分析维度体系、抽样和量化分析材料、评判记录以及分析推论等部分。分类法是指根据特定类型舆情的内容、存在形式、表现方式、反映效果等特征的统计特性,评估舆情态势、预测舆情发展走向的分析方法。话题演化法主要对已知话题的后续报道进行跟踪,基于统计知识对文本进行信息过滤,利用分类策略和话题模型对舆情话题中心和发展趋势进行研究的方法。
  4.4 信息真伪性辨别技术
  信息真伪辨别技术目的在于提高虚假信息的识别能力。社会化媒体舆情挖掘的一项重要工作就是在海量信息中识别有用信息,剔除有害信息。传统的依靠信息过滤技术进行真伪鉴别在海量的舆情数据面前捉襟见肘,必须从根本上进行技术改良。大数据技术正好提供了一些契机,一方面,社会化媒体数据具有大数据特性,引进大数据分析方法可以获得更高的识别准确率,例如针对发布的特定微博,可以综合发布位置、发布时间以及用户历史行为进行真伪性辨别。另一方面,可以通过数据挖掘的方法对海量信息进行关联筛选,通过特征采集对信息进行自动分类,比如S. Jamali等人[5]将评论量和用户属性和舆情社会网络属性作为信息特征,提出了信息分类预测算法等。   5、总结
  社会化媒体提供了全新的网络舆论场,针对性的舆情挖掘有助于保证舆论环境的良性发展。在大数据时代,舆情挖掘工作更是一项系统工程,应综合各领域知识,打破技术壁垒,采用多角度、多层次的分析手法,客观公正地发掘舆情的现实价值。当前社会化媒体舆情挖掘面临各种现实问题,但其自身也是解决方法的重要来源。本文结合大数据时代社会化媒体舆情特点,从系统架构、现实问题和关键技术等方面进行了分析闡述。总体而言,当前国内外针对社会化媒体的研究还不充分,相关研究成果还停留在实验阶段,需要进一步完成技术转换,并在实际应用中不断发展。
  参考文献:
  [1] 张银林.网络媒体发展中的信息安全问题探讨[J].信息安全与技术,2012,3(4):10-12.
  [2] Andreas M. Kaplan, Michael Haenlein. Users of the world,unite! The challenges and opportunities of Social media[J].Business Horizons,2010,53(1):59-68.
  [3] 张尼,王志军.新媒体不良信息传播机制及对策研究[J].信息通信技术,2011.50-54.
  [4] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8): 1423-1436.
  [5] S. Jamali and H. Rangwala. Digging Digg: Comment mining, popularity prediction, and social network analysis [C]. In Proceedings of International Conference on Web Information Systems and Mining, Shanghai, 2009:32-38.
  作者簡介:
  张思龙(1987-),山东泰安人,南京政治学院军事信息管理系讲师,在读博士生,研究方向:网络舆情监测、政工信息化 。
  本文系全军军事学研究生2014年科研专项、国家社科基金课题(15BTQ07 8)和学院“十三五”科研专项的课题成果之一。
其他文献
选用泥炭、酵素菌发酵风化煤等腐植酸材料,配制成无土栽培基质,用于番茄生产.试验结果表明,按照1/3酵素菌发酵风化煤:1/3泥炭:1/3酵素菌发酵牛粪配制成的无土栽培基质,其效果
本文采用聚丙烯酸钠具有独特的吸水保水能力研究了PAAS堆肥产品是否具有同样的特性,进而将其运用于农田施用方面,实验结果表明了PAAS堆肥产品在35℃、50℃、65℃、80℃温度下
土壤有机质是构成土壤肥力的核心和重要的关键所在.通过多土壤有机质现代概念的认识,和通过客观分析土壤有机质提升的传统技术模式的优缺点.建立土壤有机质从数量和质量的快
智库评价对于明确智库建设的标准和方向具有重要意义.本文首先简单介绍了智库评价及现状;其次,介绍构建中国特色新型智库评价体系的作用和原则;然后从智库评价体系不完善、效
本文聚焦生物医学科学数据领域,以美国国立卫生研究院(National Institutes of Health,NIH)的共享仓储为例,探索其在数据获取方式、数据管理及共享模式、服务方式等方面的经
将位置信息服务和移动图书馆信息服务结合,探讨了两种基于位置服务的移动图书馆个性化信息服务模型:基于LBS的移动图书馆个性化信息服务模型和SNS+LBS移动图书馆个性化信息服
目的:为了高效利用作物秸秆、改善海南辣椒的高产、稳产和高效性,和探索酵素菌生物有机肥和碳源对海南辣椒生长发育和产量的影响,方法:本试验设计了玉米秸秆、花生秸秆和椰糠3
网络舆情的传播主体在网络舆情的发生、发展和演化过程中具有重要作用,舆情的应对也离不开网络传播主体.网络意见领袖作为活跃主体,与网络舆情的演化有着密切的联系.开展基于
为了解我国情报学领域的学科发展现状,从科研合作网络入手,分析该领域的科研合作状况,为促进情报学学科建设提供借鉴.采用社会网络分析法,以UCINET作为网络分析工具,从情报学
本文列举了目前突发事件网络舆情源的种类和结构,对不同舆情源之间的异构性进行了分析,并研究了使用网络舆情专属API和网络爬虫采集舆情的方法;在此基础上,引入RESTful Web服