基于社交网络的舆情关键技术研究

来源 :新教育论坛 | 被引量 : 0次 | 上传用户:tt7506
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文主要研究基于微信平台的舆情监测分析技术,解决微信平台公众号文章数据获取问题,并对网络舆情进行情感分析。
  1引言
  微信作为新兴的自媒体平台,体现了鲜明的媒体属性,已发展成为主流的舆论聚集平台。然而,微信的信息传递更为私密、信息难以获取等问题,使得目前国内针对微博舆情监测的研究已日渐成熟,微信方面却鲜有问津。因此,本文将针对网络舆情具有的特性进行分析,并基于微信平台,进一步深入研究舆情监测分析系统的关键技术。
  2设计系统总体架构
  秉承着软件工程中高内聚、低耦合的思想,系统采用模块化设计,对信息采集、倾向性判断等各功能进行设计,以方便后续对系统功能的添加及修改。系统总体框架如图2-1所示。
  在系统框架中,第一层为数据采集与存储层,主要包含数据获取、数据采集、数据存储,应用Python爬虫和Hook技术从微信服务器中获取信息,存入MySQL数据库中。采集任务来源于已在数据库中设定的任务队列,任务列表的初期构造通过人工手动建立,之后程序识别新任务对象,由抓取策略确定任务顺序。第二层为分析层,主要包括自然语言处理、舆情分析等功能,中文文本可根据需要,对文本分词、去停用词及词性标注等文本预处理过程进行选择。目前舆情分析系统中,主要有文本倾向性分析、话题发现与跟踪、突发事件检索等多个方向,本文重点研究文本倾向性分析。第三层为展示层,形成可视化信息,提供决策依据,并为进一步系统研究提供数据分析支持。展示方式多元化,PDF文件可方便存储,提供相关证据支撑,HTML網页可读性强,方便数据分析,可进行信息交互。
  在数据获取及存储方面,本文通过Python爬虫及Hook技术相结合的方式,实现微信平台公众号文章的自动获取,并存储于MySQL数据库中。在舆情分析方面,本文重点研究机器学习方法,对各类特征选择算法及分类算法进行分析和实验后,选择出适合微信平台文本倾向性分析的分类模型。在此基础上,通过研究Google提出的word2vec模型,将其与机器学习方法结合,进行中文文本倾向性分析,并与传统分类模型作对比研究,通过对模型调优,使其在微信平台文本倾向性分析中表现更优。在舆情分析结果方面,实现HTML网页、PDF文件等多元化成果展示方式。
  首先由数据采集模块负责数据爬取,并将数据完整信息保存至数据存储模块中。然后当需要进行文本处理时,从数据存储模块中提取相关信息,进行文本预处理。根据不同功能应用选择不同功能模块,文本倾向性分析根据语料来源,评论类短文本由卡方统计算法进行特征选择,微信文本由已训练好的word2vec词向量模型处理,经过机器学习分类算法给出结果。关键词:检索选择word2vec训练模型,给定事件输入,输出关键词:,然后由HTML或PDF展示。
  3详细设计
  3.1设计实现数据采集模块
  在数据采集模块中,将主要研究微信数据的自动化获取。本文数据采集需要做到以下四个目标:第一,微信在数据采集时,由于搜狗微信网页的数据有限,且有反爬取设置,因此,需要利用移动端获取数据。第二,手机实现自动化操作,提高爬取效率。第三,数据自动存储到服务器数据库中。第四,多设备协调工作,加快采集速度。
  3.2设计数据存储模块
  数据存储模块采用MySQL数据库,是一种开放源代码的关系型数据库,使用结构化查询语言(SQL)进行数据库管理。关系型数据库一般由一个或数个表格组成:表头(header),每一列的名称;列(row),具有相同数据类型的数据的集合;行(col),每一行用来描述某个对象的具体信息;值(value),行的具体信息,每个值必须与该列的数据类型相同;键(key),表中用来识别某个特定的对象的方法,键的值在当前列中具有唯一性。在数据存储模块中,主要包含以下两个表:data_source表,存储数据对象的主要特征信息,建立数据对象ID,存储数据对象名称、添加时间、监测状态等信息。data_article表,存储文章特征信息,建立文章ID,存储文章标题、文章所属数据对象ID、文章内容、文本倾向性标识等信息。
  3.3文本倾向性分类模块
  网络舆情倾向性分析主要是对网络文章及评论进行类别判断,掌握目前针对某论点的主流态度,判断其是支持、反对,或是客观陈述,属于分类问题,研究机器学习在传统文本分类中的应用是网络舆情分析的重要环节。本文针对评论文本、微信文章数据的不同特点,研究相适应的特征选择方法及分类算法,并对实验结果进行对比和分析。
  在分类模块当中应用倾向性分类算法,标记数据库中未标记的文本,具体见下图3-1所示。
  3.4舆情报告展示模块
  舆情报告展示主要包括网页模式和PDF模式,并已实现从数据获取到文本分析、网页展示、PDF文件保存的自动化操作。网页模式采用B/S结构,即浏览器和服务器结构,用户工作界面是通过WWW浏览器来实现。B/S主要分三层架构:表现层(UI)、业务逻辑层(BLL)、数据访问层(DAL)。
  4总结及展望
  本文基于社交网络的舆情监测分析需求,设计系统总体架构,解决微信平台文章数据获取问题,并对网络舆情进行情感分析,提出word2vec模型与机器学习相结合的微信数据舆情分析模型,能够有效提高分类准确率、精确度、召回率。
  网络舆情监测分析对互联网海量信息自动获取、采集、存储,对大数据信息进行挖掘,实现网络舆情倾向性判断、自动分类聚类、主题关键词:聚焦等功能,最终形成简报、图表等分析结果,提供决策依据。
  近年来,中文舆情监测分析系统快速发展,并取得了丰硕的研究成果,但微信数据资源较少的问题,使得微信平台在舆情监测分析系统中一直比较空缺,在情感分析方面,由于开放的中文数据资源较少,情感标注质量较高的数据少之又少,无法形成统一的对比标准,造成大量成果结论无法复现。本文在数据处理方面,虽然已经采用交叉验证的方法,但分类器训练数据难免存在人为主观判断偏差问题,造成分类模型的性能降低。另外,在word2vec向量模型建立时,由于采用平均值作为向量,忽略了词的顺序问题,也会造成分类不准确,未来需要进一步研究和完善。
其他文献
摘要:目的:文章主要针对孕期健康教育对于妇产科护理的应用及效果进行分析研究,进而帮助产妇得到更好的治疗。方法:选取本院2018年10月~2019年10月接收的140例孕妇进行调查研究。随机分成对照组和观察组,各70例,对照组采取常规护理的模式,观察组则在常规护理模式的基础之上对其实施孕期健康教育。对比两组护理效果,按照自然分娩、母乳喂養两个方面的数据来比较分析孕期健康教育对于孕妇的重要性。结果:观
期刊
摘要:思想政治教育是意识形态培养和引领的重要载体,应该伴随外部环境的发展变化而做出适应性调整,切实提高思想政治教育的针对性与时效性。本文从大数据的自媒体视角系统研究思想政治教育创新问题,文章首先阐释大数据与自媒体的涵义,而后具体分析自媒体背景下思想政治教育面临的机遇与挑战,随后重点论述基于大数据的自媒体是强化思想政治教育的重要抓手,最后有针对性地设计基于大数据的自媒体思想政治教育“四块三级双向”创
期刊
摘要:目的:本文主要针对优质护理干预在妇产科护理中的应用效果进行分析研究;方法:选取2019年6月至2020年1月在我院接受诊治妇科病患100例并且采取分层分组方式,分为对照组和观察组,每组50人,对照组采取常规性护理干预,观察组采取优质护理干预,对两组患者及家属的护理满意度进行对比;结果:观察组患者及家属对护理满意度(满意度94%)高于观察组(满意度70%),差异具有统计意义(P0.05)。  
期刊
摘要:在知识经济时代到来的今天,人力资源已经成为影响企业生存与发展的重要因素。人力资源是知识、技术、劳动等生产要素以生命独有的形式凝结在个体的价值体现。人力资本是劳动者能力总和中能为企业创造价值的资源投入体现。把每个独特的人力资源高效地转化为人力资本,可使企业具备更强的收益与增值能力。本文就人力资源管理系统设计与实现展开探讨。  关键词:人力资源;管理系统;设计;实现  引言  人才始终是企业的核
期刊
摘要:互联网技术在深刻改变人们日常生活的同时,也在重新塑造互联网广告行业的格局。如今,广告收入占互联网公司总营收比重不断增大,更是影响着互联网公司未来的发展高度。以BAT为首的互联网公司依靠自己天生的渠道优势,已成为互联网广告的龙头老大,本文将聚焦互联网公司广告公司化的总体表现,从发展背景和现状等方面给出笔者个人思考,并对互联网公司广告业务未来发展提出一些建议。  关键词:互联网公司;互联网广告;
期刊
摘要:经济发展形势下,企业之间所面临的竞争也变得越来越激烈。人力资源是现代企业管理的核心,人力资源管理的重要性在于对于人力的科学统筹安排,通过科学有效的规划,充分发挥人力的能动性。人力资源管理将人员进行分配,将其放置与合理的位置中,以便为企业创造最大的利益,优化人力资源管理,能够改善企业中存在的诸多方面问题,对于企业的发展具有关键意义。本文就基于人力资本的人力资源管理体系展开探讨。  关键词:人力
期刊
摘要:目的:分析胎心監护配合针对性护理在产科检查中的应用效果。方法:选取2018年7月至2019年6月某医院接收的286名进行产科检查的产妇作为研究对象,产妇均接受常规胎心监护,同时给予针对性护理干预,分析胎心监护结果、新生儿窒息情况。结果:286名产妇中,206名胎心正常(正常组),80例胎心异常(异常组)。正常组新生儿窒息情况优于异常组,差异有统计学意义(P<0.05)。结论:胎心监护应用于产
期刊
摘要:公路运输经济在我国经济发展中占有重要地位,直接影响到社会民生经济。对于公路管理事业单位而言,在时代发展的背景下,不仅管理内容涵盖建设、养护和日常管理等各个层面,而且对管理工作的效率和整体经济效益也具有较高的要求。虽然在公路建设方面已经有了较大的提升,但是硬件建设和信息化建设方面还存在诸多方面的不足,由此造成工作效率与时代发展要求之间还具有较大差距,无法满足交通運输业发展的要求。提升信息化管理
期刊
摘要:近年来,经济的发展,促进我国科技水平的提升。我国化工行业的发展速度在不断进步的科技的推动下越来越快,化工生产的安全问题也受到越来越多人的重视。化工生产的安全问题在生产过程中的影响较大,不仅是生产人员生命安全的保障,还具有一定的社会意义。本文就化工工艺安全设计中危险识别和控制策略展开探讨。  关键词:化工工艺;安全设计;危险因素;控制措施  引言:化工行业是我国工业建设中的重要组成部分,伴随我
期刊
摘要:随着社会的发展,对于事业单位的要求也越来越严格。事业单位作为社会服务性组织,具有较强的社会公益性,这也使事业单位一直以来在人力资源绩效考核工作中以人员为社会提供公共服务时创造的价值与福利来作为绩效水平的评判标准,但这种绩效考核指标不具有明确性、量化性和考量性,也无法对职工主观能动性的发挥起到激励作用。本文就事业单位人力资源绩效考核的路径展开探讨。  关键词:人力资源管理;绩效考核;事业单位 
期刊