论文部分内容阅读
摘要:分析了网络舆情监测的背景以及现状,从网络舆情监测技术的基本概述、舆情监测的基本实现、网络监控技术手段等方面回顾了近年来网络舆情监测技术的发展。系统的探索了网络舆情监测的技术类型,并对网络舆情监测技术提出了一些指导性意见。
关键词:网络舆情;舆情监测;技术
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)24-0024-02
近年来,Web技术和web终端发展迅猛,人们越来越多的利用互联网表达自己的诉求,通过互联网表达出来的态度、情绪、意见与要求集合起来形成的网络舆情成为社情民意的体现。高校师生作为一个特定的群体,既有一般网民所关注的热点、焦点和敏感问题,又有这个特定知识层面的群体所关注的特殊问题,比如各高校的百度贴吧、论坛以及各大媒体正面或负面的网络舆情在一定程度上反映出校园文化的健康度。高校舆情是高校师生在社会政治态度的收集、整理、分析、报送、利用和反馈的信息运动过程中,用以客观反映舆情状态及其运动情况的消息、情报、指令等各种意见的总和[1]。这些舆情反映出广大师生关注的热点、焦点话题,对这些舆情特别是负面的舆情进行研判和深入剖析有助于掌握师生的思想动态,把握问题的实质,提早开展思想政治教育工作,及时化解、实现对高校网络舆情的引导和控制,维护高校的和谐稳定发展,是构建社会主义和谐校园迫切需要解决的问题[2]。在这样的背景下,如何加强高校网络舆情监测技术及处置研究,对网上言论进行有效及时的监测,快速定位不良信息的源头显得尤为重要。文章介绍了几种监测手段。
1网络监测技术的背景及现状
1.1网络舆情监测技术基本概述
互联网及新媒体技术已经成为搜集民意、反馈政府部门、企事业单位工作成效的一个有效的渠道。但是由于缺乏对互联网舆情信息等行为的必要监控,在舆情危机事件发生后,很难及时有效的获取高质量、深层次的网络舆情信息,造成舆情危机事件处置工作的被动。
在这种背景下,网络舆情监测及分析行业为了适应信息时代舆情监测和服务逐渐发展起来。它主要专注于通过海量信息采集、自然语言处理、挖掘数据、分析智能语义,机器学习等技术,不间断地监控网站、论坛、贴吧、平面媒体、博客、微博、微信等新媒体,准确、全面、及时地了解并掌握网络动向和大量的信息,从浩瀚的数据海洋中发掘出事件的动向、掌握公众态度情绪、归纳舆论观点倾向、结合类似事件预测事件发展趋势并提出应对建议。
1.2舆情监测的实现
整个舆情监测的基础是数据的采集加工,掌握数据抓取能力,通过“加工”实现数据的“增值”是舆情监测分析的基础。对于采集监测到的信息,舆情监测技术可以自动加工分类,以负面舆情,与我相关,我的关注,专题跟踪等栏目分类呈现,用户可以直奔主题,最快找到自己需要的信息。
舆情监测的目标是对趋势的研判。在信息爆炸时代人们要不断增强关联舆情信息的预测和分析,把监测的重点从搜集有效数据向对舆情的深入研判延伸。舆情监测技术可以实现对监测到的负面信息进行专题重点跟踪监测,监测人员可以对系统自动识别分类后的信息进行分类和挑选,并可以轻松导出含有分析数据图表的舆情日报周报,减轻舆情数据分析,统计作图的繁杂度。
2 网络监控技术手段
2.1人工监测法
人工监测法是通过人工浏览查阅各大媒体网页、论坛、贴吧等了解舆情的一种手段。这种手段需要投入人力资源查阅海量的信息。这种监测方式的特点是所反馈的内容全面,信息查阅精准、舆情可靠性强。利用人工查阅网页,可以较为细致、全面地反映网上舆情的真实状态,包括话语表达、情绪表达等。而这些信息内容是机器系统无法取代的。人工监测查阅网页是通过逐个阅读分析网页信息,对所设定的目标信息进行抓取,对其呈现方式、参与人群、言辞激烈程度等同时纳入信息的采集,因而可靠性较高。人工查阅网上舆情信息的内容反映周详。可以较为细致、完整地反映网上舆情的真实状态,包括人的情绪、话语表达、、共鸣强度、响应人群等。机器系统是无法将这些内容显现的。对网页的人工直接查阅是网络舆情研判的最基本方法,它能有效识别目标信息,为舆情分析提供第一手的数据。采用人工监测方法对网页信息的直接查阅还可以减少机器系统加工信息带来的偏差。
2.2利用搜索引擎的监控系统
根据目标舆情信息的话语特征利用关键词搜索,将核心词语设为关键词,运用网络搜索引擎,通过人工方式或系统,进行舆情信息搜集。这种监测手段比人工浏览法的效率高。搜索引擎是依据一定的策略,运用相关程序从互联网上搜集信息,信息在经过组织和处理后,可以向用户提供检索服务[3]。现代大规模高质量搜索引擎采用三步式工作流程:搜索—预处理—服务。搜索是从给定的起始URL集合S开始,按照网页中的链接,依据某种策略遍历,从S中移除URL,下载相应的网页, 将URL从网页中解析出,看是否被访问过,将没有访问过的那些URL放置到集合S抓取直到S为空。预处理时提取关键字,是去除HTML页面上与所需查找内容无关的信息,然后从网页源文件中提取出可以代表它的内容的一些特征,也就是内容部分所含的关键词。对链接进行分析,我们可利用HTML标签的隐含信息获取有价值的内容,同时HTML文档内指向其他文档的链接信息给出了网页间的关系,对判断页面内容也有一定的作用。服务子系统的功能主要有三个模块:包括查询方式的匹配、对结果进行排序、文档的摘要等。大多数简单地搜索引擎查詢方式是按照用户输入的词或者短语,检索含有相关内容的网页,并将结果加以排序。
2.3采用文本挖掘及信息处理技术的网络监测系统
对于网络舆情信息的发现、热点信息跟踪处理等方面的关键技术的研究包含两个方面内容:一是基于自然语言处理技术;二是从数据采集方面考虑舆情信息的发现.舆情信息采集是指对Web网页抓取和相关数据的存储,系统将对该网络资源运用网络爬行器(Crawler)、网络蜘蛛等技术手段进行信息获取,将信息保存到数据库中,为接下来的信息预处理准备[4],同时,为了提高效率,系统可以制作多个信息采集器多线程的获取网页信息并存储网页的源码。由于网页中包含了大量的其他信息,比如导航链接、广告链接等.与传统的数据库中结构化的数据相比,Web文档中的数据结构复杂[5],计算机要直接对获得的数据进行处理有较大的难度。所以要对信息进行预处理。这部分要做的工作就是对特征进行提取,就是从噪音数据中把有用的信息提取出来同时需要减少数据的维数,通过计算这些特征词的文本频数和文档频数来计算出权重,根据各个特征词的权重,对这些一级特征词进排列成顺序.确定一个阈值K 把文本的核心特征词选为K个权重较大的特征词。文本频数是特征词在文本中的频数,在训练库中,至少出现一次的文档数目即使文档频数。 在舆情分析过程中,利用聚类和文本分类等方法对预处理后的舆情素材信息进行挖掘、分析,可以实现用户对舆情信息的跟踪。预处理之后的文本被归入不同的话题,将文档进行聚类,从一组文档集中发现新热点,并在需要的时候建立话题。舆情的反馈是通过图表等方式将分析后的结果反映给用户,舆情展示包括话题敏感性话题变化显示、热点排序显示等.并可以显示出舆情在网站中的变化趋势。
2.4 量化方法在网络舆情监测中的运用
网络舆情量化法是网络舆情研究中涉及的具体数理化模型、方法以及技术,并且研究中存在相关数据汇集、统计与分析。为了确保方法和模型的实现,需要使用特定的软件。
在量化研究中,模型的构建比较重要,模型可分为理论模型与数理模型,自建模型与移植模型、有统计显示,网络舆情的量化研究主要以自建型模型为主。
网络舆情中的自建模型在舆情的识别与研判方面有主题词的识别、情感倾向分析、伪舆情识别等模型;在监测与预警方面有热点评价、监测、预警等模型;在传播与演变阶段有信息传播、群体极化等模型;在舆情应对方面有影响力评价、最优监控等模型。近年来,网络舆情量化研究已经形成了一些较为成熟的方法。在舆情识别与分析方面有支持向量机(SUM)等分类算法、K-均值算法等,情感分析以及语意分析法等;在舆情传播方面有层次分析法、BA无标度网络法、社会网络分析、博奕论等方法[6]。在舆情监测与预警方面有層次分析法、模糊综合评价方法以及BP神经网络法等。在舆情应对方面,有德尔菲法、层次分析法、博奕分析法等方法。近年来,一些研究机构已经能够很好地掌握相关技术及方法的运用,网络舆情的量化研究也有所发展。
3 结束语
网络舆情具有两面性,既有积极的一面,也有消极的一面。对网络舆情要做到有效管理和引导,注重“线上与线下”,“虚拟和现实”相互结合的原则[7],进一步提升整个互联网文化品味的建设,加强网络舆情的监控,正确引导良好的网络文化。营造积极向上的,健康活跃的校园网络舆情文化氛围。
参考文献:
[1] 陈纯柱,敖永春.网络环境下高校舆情的传播及引导机制研究[J]. 重庆大学学报(社会科学版),2011(2): 154-159.
[2] 刘瑾. 高校网络舆情分析[J]. 西安邮电学院学报, 2012(7): 85-88.
[3] 叶昭晖,曾琼,李强. 基于搜索引擎的网络舆情监控系统设计与实现[J]. 广西大学学报(自然科学版), 2011(10): 302-307.
[4] 黄美璇. 基于聚类分析的网络舆情监控系统的设计[J]. 宝鸡文理学院学报(自然科学版), 2011(10): 40-44.
[5] 何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J]. 郑州大学学报(理学版), 2010(3): 82-85.
[6] 方付建.网络舆情研究中量化方法应用态势分析[J]. 情报杂志,2014(10):47-50.
[7] 徐琦. 高校校园网络舆情监控与引导研究—以陕西师范大学为例[J]. 中国教育信息化, 2013(19): 36-39.
关键词:网络舆情;舆情监测;技术
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)24-0024-02
近年来,Web技术和web终端发展迅猛,人们越来越多的利用互联网表达自己的诉求,通过互联网表达出来的态度、情绪、意见与要求集合起来形成的网络舆情成为社情民意的体现。高校师生作为一个特定的群体,既有一般网民所关注的热点、焦点和敏感问题,又有这个特定知识层面的群体所关注的特殊问题,比如各高校的百度贴吧、论坛以及各大媒体正面或负面的网络舆情在一定程度上反映出校园文化的健康度。高校舆情是高校师生在社会政治态度的收集、整理、分析、报送、利用和反馈的信息运动过程中,用以客观反映舆情状态及其运动情况的消息、情报、指令等各种意见的总和[1]。这些舆情反映出广大师生关注的热点、焦点话题,对这些舆情特别是负面的舆情进行研判和深入剖析有助于掌握师生的思想动态,把握问题的实质,提早开展思想政治教育工作,及时化解、实现对高校网络舆情的引导和控制,维护高校的和谐稳定发展,是构建社会主义和谐校园迫切需要解决的问题[2]。在这样的背景下,如何加强高校网络舆情监测技术及处置研究,对网上言论进行有效及时的监测,快速定位不良信息的源头显得尤为重要。文章介绍了几种监测手段。
1网络监测技术的背景及现状
1.1网络舆情监测技术基本概述
互联网及新媒体技术已经成为搜集民意、反馈政府部门、企事业单位工作成效的一个有效的渠道。但是由于缺乏对互联网舆情信息等行为的必要监控,在舆情危机事件发生后,很难及时有效的获取高质量、深层次的网络舆情信息,造成舆情危机事件处置工作的被动。
在这种背景下,网络舆情监测及分析行业为了适应信息时代舆情监测和服务逐渐发展起来。它主要专注于通过海量信息采集、自然语言处理、挖掘数据、分析智能语义,机器学习等技术,不间断地监控网站、论坛、贴吧、平面媒体、博客、微博、微信等新媒体,准确、全面、及时地了解并掌握网络动向和大量的信息,从浩瀚的数据海洋中发掘出事件的动向、掌握公众态度情绪、归纳舆论观点倾向、结合类似事件预测事件发展趋势并提出应对建议。
1.2舆情监测的实现
整个舆情监测的基础是数据的采集加工,掌握数据抓取能力,通过“加工”实现数据的“增值”是舆情监测分析的基础。对于采集监测到的信息,舆情监测技术可以自动加工分类,以负面舆情,与我相关,我的关注,专题跟踪等栏目分类呈现,用户可以直奔主题,最快找到自己需要的信息。
舆情监测的目标是对趋势的研判。在信息爆炸时代人们要不断增强关联舆情信息的预测和分析,把监测的重点从搜集有效数据向对舆情的深入研判延伸。舆情监测技术可以实现对监测到的负面信息进行专题重点跟踪监测,监测人员可以对系统自动识别分类后的信息进行分类和挑选,并可以轻松导出含有分析数据图表的舆情日报周报,减轻舆情数据分析,统计作图的繁杂度。
2 网络监控技术手段
2.1人工监测法
人工监测法是通过人工浏览查阅各大媒体网页、论坛、贴吧等了解舆情的一种手段。这种手段需要投入人力资源查阅海量的信息。这种监测方式的特点是所反馈的内容全面,信息查阅精准、舆情可靠性强。利用人工查阅网页,可以较为细致、全面地反映网上舆情的真实状态,包括话语表达、情绪表达等。而这些信息内容是机器系统无法取代的。人工监测查阅网页是通过逐个阅读分析网页信息,对所设定的目标信息进行抓取,对其呈现方式、参与人群、言辞激烈程度等同时纳入信息的采集,因而可靠性较高。人工查阅网上舆情信息的内容反映周详。可以较为细致、完整地反映网上舆情的真实状态,包括人的情绪、话语表达、、共鸣强度、响应人群等。机器系统是无法将这些内容显现的。对网页的人工直接查阅是网络舆情研判的最基本方法,它能有效识别目标信息,为舆情分析提供第一手的数据。采用人工监测方法对网页信息的直接查阅还可以减少机器系统加工信息带来的偏差。
2.2利用搜索引擎的监控系统
根据目标舆情信息的话语特征利用关键词搜索,将核心词语设为关键词,运用网络搜索引擎,通过人工方式或系统,进行舆情信息搜集。这种监测手段比人工浏览法的效率高。搜索引擎是依据一定的策略,运用相关程序从互联网上搜集信息,信息在经过组织和处理后,可以向用户提供检索服务[3]。现代大规模高质量搜索引擎采用三步式工作流程:搜索—预处理—服务。搜索是从给定的起始URL集合S开始,按照网页中的链接,依据某种策略遍历,从S中移除URL,下载相应的网页, 将URL从网页中解析出,看是否被访问过,将没有访问过的那些URL放置到集合S抓取直到S为空。预处理时提取关键字,是去除HTML页面上与所需查找内容无关的信息,然后从网页源文件中提取出可以代表它的内容的一些特征,也就是内容部分所含的关键词。对链接进行分析,我们可利用HTML标签的隐含信息获取有价值的内容,同时HTML文档内指向其他文档的链接信息给出了网页间的关系,对判断页面内容也有一定的作用。服务子系统的功能主要有三个模块:包括查询方式的匹配、对结果进行排序、文档的摘要等。大多数简单地搜索引擎查詢方式是按照用户输入的词或者短语,检索含有相关内容的网页,并将结果加以排序。
2.3采用文本挖掘及信息处理技术的网络监测系统
对于网络舆情信息的发现、热点信息跟踪处理等方面的关键技术的研究包含两个方面内容:一是基于自然语言处理技术;二是从数据采集方面考虑舆情信息的发现.舆情信息采集是指对Web网页抓取和相关数据的存储,系统将对该网络资源运用网络爬行器(Crawler)、网络蜘蛛等技术手段进行信息获取,将信息保存到数据库中,为接下来的信息预处理准备[4],同时,为了提高效率,系统可以制作多个信息采集器多线程的获取网页信息并存储网页的源码。由于网页中包含了大量的其他信息,比如导航链接、广告链接等.与传统的数据库中结构化的数据相比,Web文档中的数据结构复杂[5],计算机要直接对获得的数据进行处理有较大的难度。所以要对信息进行预处理。这部分要做的工作就是对特征进行提取,就是从噪音数据中把有用的信息提取出来同时需要减少数据的维数,通过计算这些特征词的文本频数和文档频数来计算出权重,根据各个特征词的权重,对这些一级特征词进排列成顺序.确定一个阈值K 把文本的核心特征词选为K个权重较大的特征词。文本频数是特征词在文本中的频数,在训练库中,至少出现一次的文档数目即使文档频数。 在舆情分析过程中,利用聚类和文本分类等方法对预处理后的舆情素材信息进行挖掘、分析,可以实现用户对舆情信息的跟踪。预处理之后的文本被归入不同的话题,将文档进行聚类,从一组文档集中发现新热点,并在需要的时候建立话题。舆情的反馈是通过图表等方式将分析后的结果反映给用户,舆情展示包括话题敏感性话题变化显示、热点排序显示等.并可以显示出舆情在网站中的变化趋势。
2.4 量化方法在网络舆情监测中的运用
网络舆情量化法是网络舆情研究中涉及的具体数理化模型、方法以及技术,并且研究中存在相关数据汇集、统计与分析。为了确保方法和模型的实现,需要使用特定的软件。
在量化研究中,模型的构建比较重要,模型可分为理论模型与数理模型,自建模型与移植模型、有统计显示,网络舆情的量化研究主要以自建型模型为主。
网络舆情中的自建模型在舆情的识别与研判方面有主题词的识别、情感倾向分析、伪舆情识别等模型;在监测与预警方面有热点评价、监测、预警等模型;在传播与演变阶段有信息传播、群体极化等模型;在舆情应对方面有影响力评价、最优监控等模型。近年来,网络舆情量化研究已经形成了一些较为成熟的方法。在舆情识别与分析方面有支持向量机(SUM)等分类算法、K-均值算法等,情感分析以及语意分析法等;在舆情传播方面有层次分析法、BA无标度网络法、社会网络分析、博奕论等方法[6]。在舆情监测与预警方面有層次分析法、模糊综合评价方法以及BP神经网络法等。在舆情应对方面,有德尔菲法、层次分析法、博奕分析法等方法。近年来,一些研究机构已经能够很好地掌握相关技术及方法的运用,网络舆情的量化研究也有所发展。
3 结束语
网络舆情具有两面性,既有积极的一面,也有消极的一面。对网络舆情要做到有效管理和引导,注重“线上与线下”,“虚拟和现实”相互结合的原则[7],进一步提升整个互联网文化品味的建设,加强网络舆情的监控,正确引导良好的网络文化。营造积极向上的,健康活跃的校园网络舆情文化氛围。
参考文献:
[1] 陈纯柱,敖永春.网络环境下高校舆情的传播及引导机制研究[J]. 重庆大学学报(社会科学版),2011(2): 154-159.
[2] 刘瑾. 高校网络舆情分析[J]. 西安邮电学院学报, 2012(7): 85-88.
[3] 叶昭晖,曾琼,李强. 基于搜索引擎的网络舆情监控系统设计与实现[J]. 广西大学学报(自然科学版), 2011(10): 302-307.
[4] 黄美璇. 基于聚类分析的网络舆情监控系统的设计[J]. 宝鸡文理学院学报(自然科学版), 2011(10): 40-44.
[5] 何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J]. 郑州大学学报(理学版), 2010(3): 82-85.
[6] 方付建.网络舆情研究中量化方法应用态势分析[J]. 情报杂志,2014(10):47-50.
[7] 徐琦. 高校校园网络舆情监控与引导研究—以陕西师范大学为例[J]. 中国教育信息化, 2013(19): 36-39.