网络舆情中的大数据分析方法研究

来源 :求知导刊 | 被引量 : 0次 | 上传用户:kingsword001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:网络舆情是指在网络空间中对网民和生活中的社会事件尤其是一些突发事件的看法和态度。网络舆情通常涉及社会的热点事件,因而经常在网络中快速传播,成为人们谈论的焦点。因而,对网络舆情进行分析和正确的引导显得尤为重要。文章采用大数据分析方法分析网络数据,通过聚类的方法发掘网络舆情中的热点问题。实验证明该分析方法具有较高的热点挖掘能力和及时的能力。
  关键词:网络舆情;大数据分析;统计方法
  一、舆情信息的获取
  舆情分析的第一步是要对网页中的信息进行抓取,第二步是对抓取的网页的信息进行预处理。
  对网页信息抓取主要采用网络爬虫,爬虫的主要作用是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。它既可以爬取网页链接,又可以爬取网页的文本信息和图像信息。它通过关键字的搜索将对应的统一资源定位为相关的网页页面进行抓取,通過对其进行文本和图像的解析,提取对应网页的文本和图像信息并进行保存。 本文中主要提取的是网页的文本信息。
  而中文分词是把中文中的汉字系列分割为一个个独立的中文词汇。由于中文词汇与词汇之间的界限远不如英文单词那样清晰,因此,中文分词也是一个技术难点。当前中文分词主要是从主要包括字符串匹配分词方法和机器学习的统计分词方法。字符串匹配分词方法是事先通过一定的方法建立一个庞大的数据库字典,按照一定的方法把待分词的词汇与数据库字典中的词进行匹配从而实现分词的方法。机器学习的统计分词方法是通过词汇出现的频率和在文中的含义等信息对汉字的这些特征进行训练,从而实现分词。字符串匹配分词方法比较准确,但缺乏灵活性,机器学习的统计分词方法能对词的语意进行识别,但由于算法的不完善,准确率不高,因此,在实际中通常是将这两种结合来实现分词。
  中文分词的词性主要包括名词、动词、形容词和副词等,形容词和副词常表示事物的状态和特征,因而经常能表明作者对事件的喜怒哀乐之情;动词一般就是用来表示动作或状态,它是对事物采取的动作的直接体现。这些词在舆情分析中就显得尤为重要。
  二、文档特征的提取
  一个网页的文本通过分词后会有成百上千个中文词汇,如果直接对其分类会影响分类的效率和准确性。因此,在分类前要去除一些无关的词语,留下最能代表文档特征的一些分词作为文档的特征。文档特征提取最主要的方法是把文档的内容和词频进行结合。
  文档特征提取的是在不损伤文本核心信息的情况下尽量减少要处理的单词数,从而降低向量空间维数。其中最重要的方法是分析词频。其基本原理是一个词在一个文本中出现的次数越多,通常它在文本中就越重要。因此,可以计算词在文档中出现的概率即词频,来对文档的特征进行提取。另外,如果一个词在很多的文档中出现,表明它在该文档中的重要性越低,这个词就不能代表该文档的特征,文档的贡献度应该就越小,也就是通过这个词来区分文档的区分度越小,可以用逆文档频率(idf)来度量词在该文档中的重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
  设文档d中词w出现次数为count(w, d),文档d中总词数为size(d),则词w在文档d中的词频tf由下式计算。
  即tf(w,d) = count(w, d) / size(d)。
  词w在整个文档中的逆向词频idf为文档总数n与词w所出现文档数docs(w,d)比值的对数。
  即idf = log(n / docs(w,d))。
  如果要对逆向词频归一化可以采用如下的公式:
  idf = log((n+0.5) / docs(w,d))/log(n+1)
  tf-idf模型根据tf和idf为每一个文档d和由关键词w[1]...w[k]组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度
  tf-idf(q, d)
  = sum { i = 1...k | tf-idf(w[i],d) }
  = sum { i = 1...k | tf(w[i],d) * idf(w[i])}
  三、文档特征的分类
  文本特征的分类是在事先确定的分类标准下,根据文本的内容确定待分类的文本已知文本之间的类型关联。它和普通的数据分类方法是一致的,原则上现有的数据分类方法都可以实现这一功能。这一具体过程主要包括输入训练和分类两个步骤,对应的数据库包括训练数据库和检测数据库。训练数据库为带有分类标记的n个特征的若干个向量X组成的集合, x=(w1,... wi ...,wn,y),其中 wi 是文档向量的一个特征,y为该文档的分类标记。检测数据库同样是带有n个特征的若干个向量X组成的集合只是缺少分类标记。输出数据为标记号的集合即检测数据的分类标记。本文采用SVM分类方法对文本分类,对于一组训练数据 x=(w1,... wi ...,wn,y),在线性可分的情况下会有一个超平面,将这两类样本完全分开,并且离超平面最近的向量与超平面之间的距离最大。
  四、实验与分析
  本实验数据来源于天涯社区,它主要通过论坛、博客、微博为基础提供一系列网友和网站之间,网友和网友之间互动的虚拟综合平台。网友通过在其中发各种帖子能发表对各种事件的看法。实验中数据是从中获取的1500个帖子,其中1200个帖子作为训练数据,另外300个帖子作为测试数据。这1500个帖子包含六个话题,即经济、房产、体育、军事、时尚和汽车,每个帖子均带有话题类型的标记以方便训练和测试。实验中采用SVM分类方法对文本进行分类。
  在信息检索中通常采用召回率和精度衡量分类系统对数据分类的能力。召回率是检索出的某一类型的文档数和文档库中所有的相关文档数的比率,它表明该文档类型的查全率。精度即正确率是在所有相关话题文档中,检索到的正确分类文档所占的比例,它表示分类的准确程度。上述六类文档分类的召回率和精度如下表所示。
  五、结束语
  综上所述,网络舆情的分析在维护互联网安全方面起到了重要的作用,通过网络舆情分析挖掘网民所关心的热点问题,发现其中的意见领袖,对网络舆情进行正确的引导是工作的重点。同时要根据这些数据的实际情况,采用高效的算法保证舆情分析具有较快的响应速度和较低的误报率。
  参考文献:
  [1]夏火松,甄化春.大数据环境下舆情分析与决策支持研究文献综述[J].情报杂志,2015,34(2):1-5.
  [2]江华丽.中文分词算法研究与分析 [J]. 物联网技术,2016(1):87-89.
  [3]张鹏高,毕 曦.基于大数据的教育网络舆情监控与分析[J].中国教育信息化,2015(15):7-9.
其他文献
高等职业教育的培养目标决定了高等职业教育的改革与发展必须坚持以就业为导向,淮南职业技术学院在课程改革中,深入市场调研,以就业为导向,分析专业职业岗位的工作任务以及就
在新课程背景下,美术教师如何把握水墨画教学的方法和策略是一个重要课题。教师既要引导学生分析水墨画的艺术特点和表现方法,更重要的是点拨学生掌握水墨画的构成原理。
目的通过持续光照建立大型动物的慢性视网膜变性模型,用于视网膜移植实验研究。方法利用可见光持续照射12只2月龄猪达3个月以上,慢性诱导微型猪视网膜变性。采用多焦视网膜电
摘 要:物理知识源于自然、源于生活、源于生产,又能很好地服务于人类的生活、生产,学生应对此学科知识非常感兴趣才是,然而恰恰相反,许多学生非常畏惧学物理。物理学是一门探索自然科学的重要学科,如何提高学生学习物理的兴趣,是物理教师不断探讨的课题,文章就此展开了一系列论述。  关键词:物理学习;兴趣;探讨  许多学生不喜欢物理,对学习物理不感兴趣,具体表现有一看物理课本,一做物理练习就头疼,平时做作业先
目的 观察玻璃体腔内注射曲安奈德(TA)后眼压的早期变化以及前房穿刺对眼压的影响.方法 将接受玻璃体腔内注射TA治疗的20例20眼患者随机分为前房穿刺组(A组)和未进行前房穿刺组(B组),各10例10眼.A组在玻璃体腔内注射TA后前房穿刺并抽取0.05 mL房水,B组仅玻璃体腔内注射TA.应用Goldmann眼压计于玻璃体腔内注射前及注射后2、15、30 min,1 h,1 d,1周测量眼压,对2
好莱坞科幻大片《时间机器》中的“永生人”有望在2045年成为现实。俄罗斯媒体大亨德米特里·伊茨科夫发起了一个惊人的“俄罗斯2045计划”。他耗费巨资雇佣了至少30名科
摘 要:随着新课程改革推进,传统的课堂教学方式亟须改进。初中历史教学中采用情景教学法顺应了课改要求,能够充分调动学生学习兴趣和积极性,提高学生的历史知识水平,摆脱对课程枯燥无味的刻板印象。情景教学法在初中历史教学中的应用,需要教师提高自身业务能力,转变教学思维,通过多种情景设置,优化教课质量。  关键词:情景教学;情景设置;教师引导  一、运用多种情景模式,烘托教学氛围  传统的历史教学方式,多注
恶性肿瘤放射治疗,是一种放射线作用于肿瘤细胞核内染色体DNA,直接、间接杀伤或诱发细胞凋亡致细胞死亡的方法。目前,临床肿瘤放射治疗的射线主要是由直线加速器产生的X线(或称光
摘 要:法学教育的人才培养使命和教育内容本身具有特殊性,需要从德育目标、德育模式、德育方法、德育内容等层面构建完整的德育体系,确保培养出来的法学人才符合社会主义现代化建设要求。  关键词:法学;教育;德育;德育体系  中图分类号:G410 文献标识码:C 收稿日期:2016-01-05  学生发展,以德为本。有德有才为精品,无德无才为废品;有德无才为成品,无德有才为毒品。法学教育以培养符合社会要求
科学家在日本冲绳县发现了一种蜗牛。这种蜗牛能够像蜥蜴一样切断尾巴躲过捕食者的追捕。尽管人们已经知道螃蟹、蚯蚓等生物也能够切断躯体部位来逃生,但这是首次确认蜗牛也有