网络舆情热点发现与跟踪研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:amaozh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]网络舆情监控系统中的原始数据处于报道层,分析和处置的对象则位于事件层。针对这两个层次间的差距,本文首先研究事件、话题、报道三者间的关系,提出使用话题发现与跟踪技术归类不同话题,提高信息呈现的有序性,提升事件发现及分析的效率。针对话题发现生成话题重要程度难以区分的问题,通过研究网络中热点话题的典型特征,提出了一种热点话题评价模型,该模型可以对话题发现生成的不同话题计算其相对热度。研究了网络舆情热点发现系统的设计方法。针对高效数据采集的需求,设计并实现了分布式的主题爬虫。针对于大量非结构化数据存储的需求,将非关系型数据库运用到系统实现中。
  [关键词]网络舆情;话题发现与跟踪;文本聚类
  中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2015)30-0114-01
  一、引 言
  随着网民数量的增多,互联网资源的增加,网络媒体己经成为事实意义上的第四媒体,其影响也日趋深入于人们的日常生活。研究如何提早发现网络上的热点话题、敏感事件,并根据有关情况实施恰当的处理措施,成为了相关部门函待解决的一个问题。本文在基于相关的网络话题发现和追踪、热点话题发现以及搜索技术的研究基础上,研究如何实现自动热点话题发现与追踪,并基于以上技术实现网络舆情热点发现系统。该方法有助深入分析研究互联网舆情,实现热点信息、敏感信息的主动发现,为决策制订提供辅助信息;在提升互联网舆情的管理和控制,重大事件的应急响应能力方面能够发挥积极作用。
  二、系统概述
  1.1 数据采集功能
  由于系统处理的是网络数据,首先需要实现对网页数据的自动收集功能。数据采集由指定页面开始,通过网页中的超链接访问指向的页面,收集到新的网页后重复获取链接访问页面的过程,在此过程中收集符合需求的网页数据。本系统中将新闻内容作为分析处理的数据来源,将采集的范围限制在指定网站的新闻板块。
  信息采集是系统的基础功能,后续的相关分析处理都基于信息采集的数据来源进行。没有迅速、高效的信息收集就无法做到及时、准确的舆情分析。因此该信息采集部分一方面需要实现高效率的数据收集,另一方面需要覆盖足够数量的数据源,以保证数据收集的广度。
  1.2 数据预处理功能
  在本系统的处理过程中,数据的最初来源是网页。由于互联网的国际化特征,网页根据开发者的选择,往往遵守不同的字符编码规范,在处理之间需要将不同编码的页面转换为统一的字符编码。另外,网页数据是一种半结构化数据,一个页面除了待处理数据以外还包含其它的各种内容,如图片、视屏、链接、广告等,而且相关部分在HTML描述中缺乏足够信息表示其意义。因此,我们需要一种方式将系统所需的部分从网页中提取出来。该部分主要的功能就是将非结构化、有噪声、编码不统一的网页原始数据转化为结构化、内容规范、编码统一可由后续模块直接处理的数据。
  1.3 舆情分析功能
  这是舆情分析系统的核心部分,其功能根据需要可以包括热点话题识别、敏感话题识别、主题跟踪、趋势分析和预警等功能。根据实际项目需求,本系统集中于实现话题识别跟踪和热点话题发现两项功能。
  热点话题识别是基于话题识别与跟踪的结果实现的功能。热点话题识别在产生己经归类的不同话题结果上,对各个话题的“热度”进行打分。通过对于话题“热度”的排序,给用户对于不同话题重要程度的判断一个相对的参考值,帮助用户分析出当前舆情信息中值得关注的主要话题。
  1.4 数据存储功能
  热点话题发现与追踪是一个依赖于大量数据分析处理得到结果的过程,因此系统需要有稳定的数据存储模块。本系统中,数据库作为数据流的中心,提供给各个相关模块数据存储、数据备份和数据交换的功能。通过与数据库进行交互能够避免各个模块设计设计单独的调用接口,有助于减少模块的祸合度。
  三、系统实现方法
  2.1 数据采集和预处理
  该模块实现数据采集和数据预处理功能。数据采集通过网络爬虫实现。网络爬虫根据用户需求定制采集标准,从指定的URL开始,通过页面之间的相互链接,有选择性地自动获取页面。网络爬虫需要实现的基本功能是页面下载,除此以外,爬虫需要实现网页信息抽取,URL的抽取、过滤、排序等相关功能。从结构示意方面来看,典型的爬虫包括下载模块,调度模块,URL队列三个模块。
  其中下载模块实现页面下载,URL抽取,正文抽取功能。由于页面下载是阻塞时间较长的IO任务,该模块往往使用多线程技术或以异步IO以提高性能。对于获取的页面,由于网页中一般会包含有和页面主要内容不相关的图片、链接和文本内容,因此该模块需要应用用户配置的模式从页面中去除噪声并抽取出URL和网页正文。对于大量的网站定制相应的正文抽取规则是一项非常消耗人力的工作,当前的优化在于如何尽可能的实现页面正文的自动识别和抽取。
  2.2 话题跟踪与热点话题发现
  这是舆情分析系统的核心模块,热点话题发现与跟踪模块实现两个功能,一是舆情话题的发现与跟踪,另一个是热点话题的发现,后者的基于前者的结果实现。本模块包含实现功能较多,分解为多两个子模块实现整体功能。
  当前模块通过过滤停用词实现降维,对于经过分词和词性标注的文本,过滤掉其中除名词和动词以外的词语。对于新闻报道,直观上通过名词和动词就可以分辨出报道的主题信息。当前模块中通过基于Python实现的jieba分词模块实现分词。
  系统由数据采集模块负责收集原始数据,当满足聚类条件时,通过进程间通讯通知话题发现与跟踪模块从数据库中获取数据并处理。话题发现与跟踪模块处理结束后,通知话题热点发现模块判断话题热度。以上处理的结果写入到数据库中。
  2.3 数据存储
  热点话题发现与追踪是依赖于大量数据进行分析处理的任务,作为数据流的中心模块,数据库对数据采集和预处理模块、热点话题发现与跟踪模块提供数据存储功能,对用户结果展现和热点话题发现与跟踪模块提供数据读取功能。
  在这些存取过程中,整个系统对于传统数据库主要支持的ACID原则--原子性、一致性、隔离性、持久性的需求不大,系统体现出一种更符合BASE原则--基本可用、柔性事务、最终一致性的相关特性,同时数据库所需要支持的主要的数据都具有半结构化的特征。因此本系统采用了适宜于处理非结构化数据对象的NoSql类数据库MongoDB实现相关数据的保存。
  四、结语
  随着互联网的影响力与日俱增,网络舆情左右社会事件发生条件、发展过程、处理结果的能力也随之增强,网络舆情的相关研究也越来越受到相关方面的重视。对此,本文针对网络舆情分析中数据量大,网络报道冗余度高,难以分辨舆情热点的问题,基于话题发现与跟踪相关研究设计了热点话题发现模型,并根据上述模型实现了网络舆情热点发现系统,验证了热点话题发现模型的可行性。同时,网络的瞬息万变的复杂性和庞大数据量使得本系统的算法优化还有很大的发展空间,需要在实践中与用户反馈交流中不断发展。
  参考文献
  [1]. 姜胜洪.网络舆情热点的形成与发展,现状及舆论引导[月].理论月刊,2008, 4(4).
  [2]. 刘毅.略论网络舆情的概念,特点,表达与传播[J].理论界,2007, 1(11).
  [3]. 洪宇,张宇,刘挺等.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6).
  [4]. 杜阿宁.互联网舆情信息挖掘方法研究[D].北京.北京邮电大学.2007.
  [5]. 李岩,娄云.文本聚类算法在舆情监控中的应用分析[月].电子设计工程.2013,1(70).
其他文献
[摘 要]脱硫吸收塔是火电发电厂中常用的设备,在应用的过程中,要避免脱硫吸收塔出现故障而影响火电发电厂的工作效率。本文对火电发电厂脱硫吸收塔常见的故障进行了介绍,还对合理应用脱硫吸收塔的方法进行了介绍,提出了火力发电厂烟气脱硫行业未来发展的措施,希望对相关人员有所帮助。在应用脱硫吸收塔时,还要控制控制好污染问题,避免对大气层造成破坏,一定要控制好火电发电厂生产过程中对二氧化硫的排放。  [关键词]
期刊
[摘 要]当前我国的电网建设随着不断发展的经济也已经进入了快速发展的轨道,已经实现了电力电气自动化。不断进步和发展的信息技术与科学技术,使与电力相关的新技术以及新工艺不断地涌现在电力市场当中,这些新技术以及新工艺的运用不管是对于火电厂的科学管理还是节能减排或者是实现自动化的转变都有十分重要的意义。所以将自动化元件技术运用于电力企业当中,能够为电力企业实现自动化提供巨大的帮助。  [关键词]电力电气
期刊
[摘 要]基于互联网技术下的新媒体具有先天的技术优势与作为媒体的信息服务功能,是网络经济与传媒产业实现对接的最佳选择。具有社会和经济双重属性的新媒体既有传播先进文化的责任,又有盈利的需要。结合新媒体技术的发展和应用情况,以及在广播中的不断应用。通过对新媒体技术在某省市广播电台的应用情况进行详细的论述和分析。  中图分类号:TN949.198 文献标识码:A 文章编号:1009-914X(2015)
期刊
[摘 要]通过修建隧道,既能保证线路平顺和行车安全,提高舒适性和节省运费,又能增加隐蔽性,提高防护能力和不受气候影响。但是,由于隧道施工均在地下进行,地质条件较为复杂,极易造成安全事故,有时甚至不得不改变原有线路,使工程进度受到严重影响,工程费用成倍增加,造成巨大损失。因此,通过健全安全责任制度、强化安全制度建设、完善安全应急预案、加强现场安全管理、增强人员安全素质以及严格控制施工过程等方法的运用
期刊
[摘 要]自然光是建筑空间环境必须要考虑的一个要素,因为作为一个自然要素,不同的设计方式能够给人以不同的感觉,或梦幻、或神圣、或亲和,总之这需要设计师依据建筑类型来选择利用自然光的方式,比如教堂设计人员通常利用自然光来营造神圣的氛围。本文主要是从“光”与“轻”、“光”与“影”以及“光”与“流线”三个方面来阐释建筑空间环境的“自然光”给人不同的视觉感受,希望为建筑空间环境设计人员提供帮助。  [关键
期刊
[摘 要]信息技术在企业管理中的作用越来越大,帮助企业在激烈的市场竞争中立于不败之地。本文以超市连锁店为主体,叙述基于J2EE技术的超市连锁店管理系统的设计实现过程,包括系统的可行性分析、需求分析、设计实现、测试部署等步骤。通过分析总结,使我们熟悉并掌握J2EE平台开发的基本流程和方法。  [关键词]信息技术;超市连锁点管理系统;J2EE;SSH  中图分类号:R195 文献标识码:A 文章编号:
期刊
[摘 要]本文就如何改善上海明珠厂1KW全固态中波发射机电声指标展开论述。  [关键词]1KW全固态中波发射机 电声指标  中图分类号:TN834 文献标识码:A 文章编号:1009-914X(2015)30-0105-01  作为中波系统重要环节的中波发射机,其电声指标对中波系统的影响举足轻重。随着新技术的不断涌现,中波发射机从原有的模拟式、模块化、高维护演变成现今的数字式、电子化、低故障,全固
期刊
[摘 要]生物防治是植物保护中不可缺少的技术手段,主要是运用自然界生物相生相克的原理,发挥病虫草害相克生物的作用,控制其危害,故具有较小的环境污染风险,是一种与环境友好的植保技术。松材线虫是国际上公认的重要检疫性有害生物。树木一旦受松材线虫侵害,短期内就会死亡,同时又较难控制。因此,松材线虫病又被称为松树“癌症”。 目前,该病害在我国有继续扩大的趋势,使我国的松林资源、自然景观和生态环境遭受严重破
期刊
[摘 要]随着现代医学的不断发展,医疗电气设备已经在医院中广泛应用,设备与人接触的几率大、时间久,因此安全性也至关重要。若在治疗中产生漏电现象或者出现故障停止运作,那么对病人的生命安全会造成极大的威胁。本文便从几方面来讨论如何使得手术室电气安全性能提高,以及安全措施的应用。  [关键词]现代医院;手术室;电气安全设计  中图分类号:R826.2+1 文献标识码:A 文章编号:1009-914X(2
期刊
[摘 要]铁路是我国主要现代化交通工具之一,对社会、经济和科技的发展,均发挥着重要的作用。铁路客车集中式轴温报警器是由轴温传感器、传输线路以及控制显示器、记录仪组成,是监测铁路客车轴温,预报热轴,防止切轴,保证旅客列车运行安全的重要设备。熟悉掌握轴报器常见故障及处理措施,可以对突发应急故障进行及时有效的处理,有效预防客车因热轴引起的燃轴、切轴事故。  [关键词]轴温报警器;误报警;温度传感器;控制
期刊