互联网舆情监测系统中的热点发现及分析

来源 :河北科技大学 | 被引量 : 3次 | 上传用户:opcs2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,信息传播方式逐渐转变为微博、微信这样的新媒体网络传播形式了,并且内容丰富,信息量大,传播速度很快,涉猎范围很广,当出现热点事件时,广大民众快速加入网络讨论中,甚至形成强大的队伍,互联网舆情事件也就随之产生,甚至有些舆论可能危害国家和谐和稳定,因此针对互联网的舆情热点发现与分析就显得尤为重要。舆情热点发现与分析不仅可以帮助决策者快速发现网民聚焦的话题,并且还可以分析预测舆论方向和趋势,帮助决策者针对可能发生的网络舆情风暴提前进行预防工作。由于互联网爆发式的数据增长模式,传统的技术在获取和存储海量数据已经越来越难满足性能要求,因此,基于大数据的背景,设计并实现能够实时发现和分析互联网舆情热点的方案具有重要的意义。针对以上分析,本文分别完成了以下工作:第一,设计并完成了针对新浪微博平台发布信息的实时增量爬虫,给出了基于树结构的正文抓取算法和增量式网络爬虫方法。第二,给出了热点话题发现模型,针对发现过程中的文本预处理,给出基于网络新词发现的中文分词算法,并结合Hadoop平台,通过实验验证了该算法的有效性。第三,在话题分析上,分析了多种聚类算法,最后选择了增量聚类算法Single-Pass,并且针对该算法对数据顺序敏感的缺点以及当聚类数量急剧增加求解效率明显下降的问题,给出了改进的Single-Pass聚类算法,最后分析了互联网舆情的特点,给出了互联网舆情热点分析模型。本文所给出的增量式数据采集方法,可以有效减少冗余数据,提高采集效率。对比传统文本挖掘模型在处理大量数据效率低的问题,本文所给出的热点话题的发现与分析方法,在一定程度上可以解决该问题,具有较高的实用价值。
其他文献
就从目前的情况看来,企业之间的相互竞争随着时代的不断发展而变得越来越激烈,党建工作在企业当中占据着十分重要的地位,对于企业的进一步发展有着直接的影响。不过,在新常态
小说伏笔是小说中为下文即将发生的事所做的暗示。在小说作品中,伏笔往往有场景伏笔、人物伏笔、物体伏笔、语言伏笔等,并常常通过人物语言、叙事者话语以及作品所营造的氛围
教育教学事业的蓬勃发展,带来课堂教学模式的不断更新,促使教育者积极地创设教学情境,构建以学生为中心的课堂环境,从而达到课堂教学效率的提高。作为高中历史教师要积极地进
随着网络的逐步普及,多媒体网络已经走进了我们的课堂,几乎所有的教室里都安装了多媒体教学设备,可以看出我们国家对于基础教育的关注度。多媒体的普及给我们的小学语文教学
该文以广西大青山马尾松全林整体模型为基础模型,进行模拟实验设计,并构造株数、直径、优势高、平均高和形高5个观测因子都有度量误差的模拟观测数据,用非线性度量误差联立方程
环境污染问题是当今全球范围内面临的重大危机,影响着人类社会的可持续发展事业。必须加大环境保护力度,探索解决环境污染的科学技术手段,采取有效措施,以缓解日益加剧的环境
习近平总书记在7月21日企业家座谈会上指出,要千方百计把市场主体保护好,保护市场主体就是保护社会生产力;只有市场主体稳了,就业才会稳,收入和消费才会稳,才能形成国民经济
随机抽取川北医学院在校学生400人,采用自制问卷进行调查,探究学生对红色文化的认知程度和渠道特点,揭示新媒体时代下学生通过新媒体进行红色文化学习与传播的现状。同时根据
近年来我国大气污染严重,大气中颗粒物等污染物会通过门窗缝隙渗透和通风空调系统进入室内,导致室内空气品质恶化,空气净化器和新风系统成为了净化污染物和保障室内空气品质
2019亚太安全国际会议(Asia Pacific Symposium on Safety 2019,APSS2019)于2019年9月19~21日在大连顺利召开。会议由大连理工大学化工学院主办,武汉理工大学安全科学与应急