论文部分内容阅读
【摘 要】随着时代的进步,互联网媒体技术也在飞速的发展着,它正以其特有的方式传播到高校的各个角落。现如今,网络已成为高校舆论交锋的前沿阵地,它反映并影响着一定范围的社会舆情的生成与发展,高校大学生是网民中对社会热点现象反映最活跃、最主动、最敏感的中心群体,极易通过互联网对一些社会上的焦点和热点问题表达自己的看法与言论。同时,随着以信息技术为标志的新技术发展的突飞猛进,许多先进技术大量出现在人们的视野中,以QQ、微博、微信、飞信等网络应用软件的出现为主,互联网+就出现在了我们的生活中,网络便以迅雷不及掩耳之势飞速的进入到学校的教学、管理和生活等各个方面。因此,加强高校学生网络舆情的研究,重视校园网络舆情信息的管理、引导,建立健全高校网络舆情的管理机制,必将对校园网络文明发展起到至关重要的作用。
【关键词】互联网;民族地区
【中图分类号】G644 【文献标识码】A
【文章编号】2095-3089(2018)12-0028-01
地处康巴藏区的民族地区高校网络舆情的基本内容是民族高校在校大学生对现实生活中的各方面焦点事件和热点事件的观点、意见以及看法。网络舆情作为民族高校言论情绪的代表和态度的取向,主要有情绪、认知和行为倾向三大部分组成。而社会上出现的热点问题一旦落脚在具体的人物或事件上,就会在各大高校被学生们讨论,并不知不觉的掺杂到人的思想意识和情感表达之中,同时会发生一些潜移默化的影响。民族高校中同学们相互之间的言论表达也是构成舆情的一种产生途径。作为高校应当主动应对各类网络舆情,增强应急处理及预警防范机制。
基于民族地区高校的“互联网+”网络舆情热点发现技术,我们是通过java语言编程实现爬虫技术,下载所有Web页面,利用自然语言数据的来源进行深入的处理和分析使其与当前最为流行的大数据技术相结合。首先,我们对Web页面进行下载分析其中可能产生网络舆情关键词的内容以及民族地区在校大学生当下讨论的热点话题中关键词的提取。我们使用的爬虫程序的设计目的是在周期内进行扫描,尽可能多的下载所有的Web网页,由于在下载过程中需要消耗大量的网络带宽和硬盘资源,所以我们采用了网盘存储下载Web页面,节省了网盘资源的消耗,也可实现Web网页的多处备份。爬虫技术获取网页也有一定的时间限制,周期性太长则导致获取的信息滞后且内容缺乏实时性,不能准确的反映民族地区在校大学生的焦点话题、热点问题等。通过对爬虫技术的改进,使用已改进的算法进行网页爬取,大大提高了爬虫爬取Web网页的质量和速度。如果学院贴吧或论坛中的帖子在爬虫周期内被贴吧论坛的管理员或者本人删除,那么网络爬虫就无法获知这些帖子中的具体信息。因为某些贴吧或论坛具有限制访问的功能,所以爬虫就无法捕捉到讨论话题的关键词和热点内容。而通过旁路模式,可以监控一切发表的主题内容,不会因为由于某些信息获取不到而导致舆情信息分析不周全[1]。
根据旁路方式实时抓取到民族地区高校论坛贴吧的网络流量,得到在校学生访问Web网页中贴吧论坛内容以及用户提交的帖子等相关信息。我们利用GoogleAnalytics工具分析出当前访问的热门网页,即在校大学生频繁访问的网页来获取关注内容,从而可查找出在民族地区在校大学生之间交流和探讨的热点信息和内容,同时也可分析出民族地区在校大学生的思想动态和言论倾向。利用37degree的知客数据将分析在微博上发布的内容,同时根据关键词分析出用户的特征,精确地反应出民族地区高校大学生访问的热门话题。此程序设计还提供Web网页支持关键词来掌控贴吧论坛内容时间限制的访问等,使用该软件分析出来的热词仍然能够添加到动态数据库中。
我们研究的民族地区高校(以四川民族学院为例)的舆情监测系统由三个部分组成:数据的采集,数据的分析、维护与管理。一、数据的采集
通过网页爬虫技术下载所有网页,分析出浏览量最高的网页,对这些浏览访问次数高的网页进行处理,即通过GoogleAnalytics工具对出现频繁的词汇进行收集和处理,存入数据库中。二、数据的分析
根据采集出来的信息进行数据分析,其中可分析出高频讨论话题、当前讨论的主题热门词集,还原出热点话题内容,以及捕获到校园内高频访问的网页信息,并达到深度数据分析的效果。这部分是监测系统的关键部分。三、维护与管理
维护管理模块通过web界面提供人机交互界面,管理员可以对监测处的各种信息进行管理、也可以从软件分析中提取出高频词和热门访问网页。由于各社交网站讨论的主题具有时间性,GoogleAnalytics軟件可以添加生效时间及范围等等关键字内容。当软件匹配到地区敏感关键字时,将根据相应关键字本身具有的策略采用相应的措施。并且这些行为将记录为日志,可以通过这些日志分析出社交网站或网页中哪些是用户访问最具敏感、频繁的信息,给管理员管理与维护软件提供更直观的数据,带来了更多得便捷。
GoogleAnalytics软件经过试运行,能够准确发现网页中的热点话题及高频词组,并且有效控制主题的访问范围。
参考文献
[1]陈立章等.高校BBS舆情监测系统设计与实现[J],2012.2(1).
【关键词】互联网;民族地区
【中图分类号】G644 【文献标识码】A
【文章编号】2095-3089(2018)12-0028-01
地处康巴藏区的民族地区高校网络舆情的基本内容是民族高校在校大学生对现实生活中的各方面焦点事件和热点事件的观点、意见以及看法。网络舆情作为民族高校言论情绪的代表和态度的取向,主要有情绪、认知和行为倾向三大部分组成。而社会上出现的热点问题一旦落脚在具体的人物或事件上,就会在各大高校被学生们讨论,并不知不觉的掺杂到人的思想意识和情感表达之中,同时会发生一些潜移默化的影响。民族高校中同学们相互之间的言论表达也是构成舆情的一种产生途径。作为高校应当主动应对各类网络舆情,增强应急处理及预警防范机制。
基于民族地区高校的“互联网+”网络舆情热点发现技术,我们是通过java语言编程实现爬虫技术,下载所有Web页面,利用自然语言数据的来源进行深入的处理和分析使其与当前最为流行的大数据技术相结合。首先,我们对Web页面进行下载分析其中可能产生网络舆情关键词的内容以及民族地区在校大学生当下讨论的热点话题中关键词的提取。我们使用的爬虫程序的设计目的是在周期内进行扫描,尽可能多的下载所有的Web网页,由于在下载过程中需要消耗大量的网络带宽和硬盘资源,所以我们采用了网盘存储下载Web页面,节省了网盘资源的消耗,也可实现Web网页的多处备份。爬虫技术获取网页也有一定的时间限制,周期性太长则导致获取的信息滞后且内容缺乏实时性,不能准确的反映民族地区在校大学生的焦点话题、热点问题等。通过对爬虫技术的改进,使用已改进的算法进行网页爬取,大大提高了爬虫爬取Web网页的质量和速度。如果学院贴吧或论坛中的帖子在爬虫周期内被贴吧论坛的管理员或者本人删除,那么网络爬虫就无法获知这些帖子中的具体信息。因为某些贴吧或论坛具有限制访问的功能,所以爬虫就无法捕捉到讨论话题的关键词和热点内容。而通过旁路模式,可以监控一切发表的主题内容,不会因为由于某些信息获取不到而导致舆情信息分析不周全[1]。
根据旁路方式实时抓取到民族地区高校论坛贴吧的网络流量,得到在校学生访问Web网页中贴吧论坛内容以及用户提交的帖子等相关信息。我们利用GoogleAnalytics工具分析出当前访问的热门网页,即在校大学生频繁访问的网页来获取关注内容,从而可查找出在民族地区在校大学生之间交流和探讨的热点信息和内容,同时也可分析出民族地区在校大学生的思想动态和言论倾向。利用37degree的知客数据将分析在微博上发布的内容,同时根据关键词分析出用户的特征,精确地反应出民族地区高校大学生访问的热门话题。此程序设计还提供Web网页支持关键词来掌控贴吧论坛内容时间限制的访问等,使用该软件分析出来的热词仍然能够添加到动态数据库中。
我们研究的民族地区高校(以四川民族学院为例)的舆情监测系统由三个部分组成:数据的采集,数据的分析、维护与管理。一、数据的采集
通过网页爬虫技术下载所有网页,分析出浏览量最高的网页,对这些浏览访问次数高的网页进行处理,即通过GoogleAnalytics工具对出现频繁的词汇进行收集和处理,存入数据库中。二、数据的分析
根据采集出来的信息进行数据分析,其中可分析出高频讨论话题、当前讨论的主题热门词集,还原出热点话题内容,以及捕获到校园内高频访问的网页信息,并达到深度数据分析的效果。这部分是监测系统的关键部分。三、维护与管理
维护管理模块通过web界面提供人机交互界面,管理员可以对监测处的各种信息进行管理、也可以从软件分析中提取出高频词和热门访问网页。由于各社交网站讨论的主题具有时间性,GoogleAnalytics軟件可以添加生效时间及范围等等关键字内容。当软件匹配到地区敏感关键字时,将根据相应关键字本身具有的策略采用相应的措施。并且这些行为将记录为日志,可以通过这些日志分析出社交网站或网页中哪些是用户访问最具敏感、频繁的信息,给管理员管理与维护软件提供更直观的数据,带来了更多得便捷。
GoogleAnalytics软件经过试运行,能够准确发现网页中的热点话题及高频词组,并且有效控制主题的访问范围。
参考文献
[1]陈立章等.高校BBS舆情监测系统设计与实现[J],2012.2(1).