高校网络舆情监测关键技术研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:suddysand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文对高校BBS网络舆情的形成、传播特点和热点分析的方法进行探讨,以高校网络舆情监控机制的需求为出发点,从网络爬虫、文本挖掘、情感分析等技术入手,深入研究聚集爬虫、信息处理、文本聚类等方面的技术实现方案,用统计的方法来计算舆情主题被关注的程度。
  关键词:高校BBS;网络舆情;监测;热点分析
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)16-3688-04
  1 概述
  随着互联网的普及和高校信息化的建设,各大高校都拥有自己的BBS网络,学生在网络上进行交流,发表自己的观点和意见,表达思想等,舆情的影响和规律都不容忽视。然而,对敏感和突发事件的不实言论和恶意煽动,会误导和欺骗学生,扩大学生的不满情绪,影响和破坏校园的和谐稳定。因此,有必要对高校BBS网络涉及意识形态安全的议题和言论进行有效地监管。采用数据挖掘技术,对互联网舆情进行分析、整理,才能建立起全面、有效、快速的舆情监测预警机制,使高校网络得以健康、快速的发展,成为当前研究和应用的热点。
  在目前的校园网络舆情监测应用中,还没有比较成熟的网络舆情产品,因此,针对高校BBS网络的特点,结合高校网络舆情监控机制和引导策略,开发高校网络舆情监测平台有很大的现实意义和应用价值。
  2 舆情热点分析方法
  2.1网络舆情的形成
  2.2主题关注度分析
  主题关注度是指过去某一时间段内,舆情主题被关注的程度,用该主题的相关帖子回复数或与该主题的相关网页数进行衡量[1]。在进行舆情分析时,要统计某一主题或事件被关注的程度,首先要明确事件或话题本身所处的阶段;其次,应该在分析某一舆情热点之前对其进行科学的类型界定。热点事件主要分为突发自然灾害事件、生产安全事故、群体性事件、公共卫生事件、公权力形象、司法事件、经济民生事件、社会思潮、境外涉华突发事件等。
  2.3 主题热度分析
  主题热度分析即在某一时同段内相对更加被关注或集中关注的舆情主题,用该主题的关注度进行衡量。统计所有舆情主题的关注度,在某一时间段内,对所有设为热点的主题按关注度的降序进行排列,生成某一时间段内的热点主题排行榜。排在榜首的主题网民的关注度最高,也就是热点问题所在。
  3 网络舆情监测关键技术
  网络舆情监测技术主要集中在两个方面,一是话题检测与跟踪技术(Topic Detection and Tracking),二是文体倾向性分析技术(Sentiment Classification)技术。主题检测与跟踪作为舆情分析的重要技术手段,是近十年自然语言处理和信息检索领域的热点研究课题[2]。要对高校网络舆情进行监测,就是运用网络爬虫、文本挖掘和文本情感分析技术,实现热点话题发现、话题跟踪、关联分析、敏感信息监测的功能。
  3.1 主题爬虫技术
  3.1.1网络爬虫的分类
  网络爬虫也叫网络蜘蛛,是一个按照一定的规则自动提取网页的程序,这种技术可以检查站点上所有的链接是否有效,并把相关的数据保存下来,成为搜索引擎[3]。
  通用网络爬虫首先把网络上的HTML文档使用超链接连接起来,就像织了一张网,爬虫程序从一个或若干初始网页的URL开始,获得初始网页上的URL列表,顺着这张网,不断的抓取网页,将内容抽取出来,直到满足系统的停止条件为止。
  聚焦爬虫技术是根据一定的网页分析算法地过滤与主题无关的链接,保留有用的链接放到待抓取的队列中,通过一定的搜索策略从队列中选择下一步要抓取的URL,重复以上步骤,直到满足程序的停止条件。
  3.1.2爬行算法
  基于主题的聚焦爬虫搜索策略主要有人工预选策略、过滤策略、启发式搜索策略。人工预选策略是由人工预先浏览各个站点,从中选出与主题相关的网站,然后再用爬虫程序对这类网站进行持续的访问;过滤策略是将爬虫抓取下来的网页,先进行过滤,删除与主题不相关的页面,保留相关页面;启发式策略是考虑特定问题可应用的知识地优先选择合适的操作算子,尽量减少不必要的搜索,以搜索效率。下面介绍比较有代表性的算法Fish Search算法。
  Fish Search算法是模拟自然界中的鱼群的行为来进行最优搜索,依据自然规律,鱼群总是朝一个方向流动来寻找食物并繁殖,子代鱼群的数量和强壮程度取决于能找到的食物的数量。在Fish Search算法中,每一个URL看作是一条鱼,当一个Web页面被抓取后,它包含的新的UEL也同时被解析出来。其中,有用的URL的数量取决于该页面是否与主题相关以及它本身包含的链接数量。当增加一个文档,鱼就繁殖一定数量的后代,若文档相关也就是指鱼儿找到了食物,可以繁殖出更多的后代,则再增加此文的链接深度;若文档不相关,鱼就越来越少,后代也越少。在某一方向上经过几条链接仍未找到相关文档,就表明此鱼已死,就不再沿着这个方向进行查找了,将此URL加入到完成队列中。若一条鱼读取文档的时间过长,说明该鱼已进入污染区,则尽量少沿着这条URL搜索,以免出现死循环。
  Fish Search算法不像传统的搜索算法按照URL在父页面中出现的顺序来依次搜索,而是动态的根据网页的搜索深度值来决定搜索的顺序,实现了可能的主题相关网页优先搜索。该算法的不足之处在于相关度的计算过于简单,容易使算法过早陷入局部最优的陷阱,导致整体回报率不高[4]。
  3.2 文本挖掘技术
  3.2.1文本表示
  文本表示包括两个方面的问题:文本的表示和计算,文本的表示是指文本特征的提取,计算指权重的定义和语义相似度的定义。
  目前,文本的表示通常采用布尔模型、向量空间模型、潜在语义模型和概率模型文本表示模型,用某种特定结构去表达文本的语义。   3.2.2文本相似度计算
  3.2.3文本聚类和分类
  文本聚类通常对已有的文本集合进行聚类,文本聚类技术是主题检测技术的基础,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度则尽可能的小。
  经过多年研究,聚类算法已经很成熟,主要可分为五类:以k-means为代表的划分方法,利用同一聚类中的对象相似度高,不同类的对象相似度低的特性进行分类;将类别看作是在层次的层次聚类方法,有两种分类方法:整合法和分裂法;主要考虑数据空间的密度、连通性和边界区的基于密度的方法;将数据的分割方法转换成对空间的分割的基于网络的算法;在高维空间进行聚类的核聚类算法等。
  不管采用哪一种聚类算法,文本聚类的流程如图2所示,主要有以下步骤:
  ①将原始文本进行预处理,抽取词条,词条选择等其他处理;
  ②抽取文本特征,建立模型,例如向量空间模型、概率模型等其他模型;
  ③将维度进行约减,需要用到的算法有层次算法、划分算法等其他算法;
  ④得到聚类结果。
  3.2.4 关键词和摘要提取
  由于网络上的文档信息量比较庞大,如果直接对全文进行检索,其检索的速度会很慢,而且检索的效率不高,经常检索出无关的内容。因此为了提高检索质量和效率,必须对文档建立关键词和摘要。关于关键词自动提取的方法主要有主要包括基于统计、基于语义理解和基于机器学习三种方式。
  关键词的抽取过程非常复杂,设计思路是首先建立一个通用的主题词表,然后基于这个主题表对处理后的页面文档进行主题词的抽取工作,主题词的抽取过程主要包括预处理、选择候选词、计算关键词权重、输出关键词等几个主要步骤。
  4 实验结果
  5 结束语
  本文立足于高校网络舆情监测的实际需求,研究了高校舆情监控系统的关键技术:网络爬虫、文本挖掘等多种信息技术。在多种技术的支撑下,开发出一套适用于高校BBS网络的舆情监测平台,实现了对新闻的实时跟踪,校园热点话题的监控、敏感信息的监测等功能是可以是实现的,这项研究还需要进一步深入。
  参考文献:
  [1] 林兴发,肖照.基于大学生BBS论坛的舆情热点分析——以武汉大学珞珈山水论坛为例[J].现代商贸工业. 2010(18):188-189.
  [2] Pimwadee Chaovalit,Lina Zhou,Movie Review Mining:a Comparison between Supervised and Unsupervised Classification Approaches,In Proceedings of the 38th Hawaii International Conference on System Sciences,2005.
  [3] PINKERTON B.Finding what people want:Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago,Illinois,1994.
  [4] 曾元显,关键词自动提取技术与相关词回馈[J].中国图书馆学会会报,1997,11(59):20-23.
  [5] 黄萱菁,赵军.中文文本情感分析[J].中国计算机学会通讯,2008,2(4):13-16.
其他文献
高校必须从本校的办学类型定位、办学层次定位、学科专业发展定位、服务面向和办学条件出发,深入调研、科学论证、合理规划、重点投入、加强建设,努力形成自主、自检、自律的
【正】 一个国家竞技体育的高水平发展,在很大程度上取决于教练员的知识水平。尤其在竞技体育迅猛发展的今天,教练员的作用更是举足轻重。因此,注重教练员高质量的培养以及及
第四届中国国际印刷技术及设备器材展(简称中国国际全印展)将于2011年11月14~17日在上海举行。届时,黄山金瑞泰科技有限公司(以下简称金瑞泰)将凭产品实力一展公司风采。
【正】 不少研究已经证明,成人通过耐力训练能够增加骨骼肌氧化酶的活性,而速度训练则能够(亦有研究发现没有)增加糖醇解酶的活性。埃里森等注意到,11~13岁男孩训练前后的琥珀
搞好继续教育是发展国民经济的需要, 继续教育是现代化建设的题中应有之义, 因此, 要高度重视继续教育工作。要调动各方面的积极性, 举办多种形式的继续教育。要建立和健全继
【正】 一、旧中国体育组织和国际奥委会的联系据记载,早在1894年国际奥委会成立之际,顾拜旦曾通过当时法国驻华使节致函清政府,邀请中国参加1896年在雅典举行的第一届奥运会
【正】 我国的教育方针,是“使受教育者在德育、智育、体育几方面都得到发展,成为有社会主义觉悟的有文化的劳动者”。体育在“三育”中有其独特的作用。体育课更能培养学生
作为数字印刷流程的“后起之秀”,印后加工已然融入了数字化这场技术浪潮,并且隐藏着巨大的市场发展潜力。数字浪潮引发印后革命近几年,数字化印后技术的发展为国内外印后设备进
【正】 自一八四○年鸦片战争失败以后,在外受帝国主义侵略、内苦清王朝残暴统治下的中国,处于水深火热之中。灾难深重的中华民族、其优秀人物、满腔热血的为推翻清朝统治而
东北地区独特的自然条件形成了先民们的原始渔猎经济,也培育了特色鲜明的原始文化和语言.这种原始文化和语言一方面保存了阿尔泰 -通古斯语言的特征和规律,另一方面受到中原