统计学最近邻分类方法在网络舆情分析中的运用

来源 :文理导航 | 被引量 : 0次 | 上传用户:sjzshiyijshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着计算机网络的迅速发展,生活中发生的突发事件通过网络瞬间传播和扩散,这些带有倾向性的网络信息即网络舆情迅速成为人们谈论的焦点。怎样对网络舆情进行分析和正确的引导成为网络安全领域一个新的热点问题。文章通过采用统计方法对网络数据进行分析,对网络舆情进行分类处理,从而发掘网络舆情中新的热点问题。由于分类算法采用分类统计技术简单、高效从而保证了分析的准确性和即时性。
  【关键词】网络舆情;最近邻分类;统计方法
  导语
  随着互联网的迅猛发展,网络成为全社会所有人发表和传播自己言论的场所,生活中的突发事件在网络中被迅速传播,其中对突发事件的评论有相当一部分言论被各种政治团体和敌对势力所控制,通过错误的言论控制人们的思想,因此,对网络中这些热点通过计算机进行分析、发掘并进行正确的引导是目前网络舆情中需亟待解决的问题。网络舆情监控系统通常采用复杂的机器学习技术对舆情中的话题进行分类,由于算法的复杂性速度较慢,文章通过把数学统计学中的距离运算引入到舆情分析,采用最近邻分类方法对舆情进行分类,解决了分类的实时性,从而提高舆情检测的实用性。
  1.舆情数据的提取
  网络舆情文本的提取一般通过爬虫实现。网络爬虫会选取一些备用的网址并把它们放入要抓取的网址队列中,通过域名解析得到对方的ip并将网页保存到下载网页库中。爬虫通过分析已抓取网页的各种链接通过一定的抓取策略一个链接一个链接抓取下去,直到达到系统的某些条件时才停止下来。
  2.舆情数据的预处理
  网络舆情数据的预处理包括背景噪声的去除,中文的分词,词性的标注和停顿词的去除等几个步骤。
  被抓取后的网页除网页本身的信息外还有一些和网页无关的内容,如各种广告、游戏等内容。这些内容往往与网页本身无关,如果拿来分析会降低舆情分析的准确率,因此要去除这部分内容。广告、游戏这些背景噪声往往会链接到多个页面,即多个页面的链接出现的是同一个链接地址,因而,通过删除这些重复的链接地址对应的网页即可消除背景噪声对舆情分析的影响。
  中文分词是把中文的一篇文章、一段文字或者一个语句分割为一个个单独的词。目前主流的分词算法主要包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。主流的分词工具包括中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,该系统采用多层隐马尔可夫模型实现中文的分词、词性标注和新词识别等功能。其词典除自带的以外还可按用户的要求进行手动的更新因而使用十分方便。CSW中文智能分词DLL组件则可讲一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词性和词频标注。
  中文分词的词性主要包括名词、动词、形容词和副词等,其中的形容词和副词往往表示作者的情感取向和对某个事件的善恶态度因而它们决定了作者对舆情的价值取向,其中的动词往往表示作者的动作和采取的行动,是作者情感对外直接的体现,因而这些分词对舆情的分析是非常重要的。
  停顿词是指词本身无明显词意与文本的内容无太多关系的词。绝大部分的助词如“的”,“地”,“得”等属于这一类。这些词在文本中出现的频率很高,对舆情分析的准确率存在较大的影响,因此在网络舆情数据的预处理时要去除这些停顿词。
  3.文档特征的提取
  文档特征的提取是中文分词后提取最能代表文档特征的一些分词作为文档的特征,这样既减小了分类算法的计算数据量又能提高分类的准确性。文档特征的提取最本质的方法是分析词频,因为词频在很大程度上决定了作者的情感和态度,因此目前文档特征提取的方法很大一部分是在分析词频的基础上发展起来的。目前在文档特征提取中常用的方法有信息增益法、期望交叉熵、互信息、χ2统计以及TF-IDF(词频-逆向文件频率)分析方法。其中TF-IDF运用最广泛,TF—IDF算法的核心是统计词频并比较词语在单个文档和整个文档之间出现频率的差异,并认为区分度最大的词语是在单个文档出现频率较高而在所有文档集合中出现的频率较低。它将词频分为单个文档中的词频和所有文档中的逆向词频两类,通过比较这两类词频找出文档的特征。其基本原理如下:
  设词w在文档d中的词频tf(Term Frequency),同时词w在整个文档中的逆向词频为idf 则词频tf 为词w在文档d中出现次数count(w, d)和文档d中总词数size(d)的比值。
  即tf(w,d)=count(w, d)/size(d)
  整個文档中的逆向词频则为idf = log(n/docs(w,D))
  即为文档总数n与词w所出现文档数docs(w,D)比值的对数。
  tf-idf模型根据tf和idf为每一个文档d和由关键词w[1]...w[k]组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度
  tf-idf(q, d)
  =sum { i = 1..k | tf-idf(w[i], d) }
  =sum { i = 1..k | tf(w[i], d) * idf(w[i]) }
  4.文档特征的分类
  文档特征的分类是舆情分析的关键,它决定了舆情分析
  的准确率和速度。本文采用最近邻分类方法,解决了分类的实时性,从而提高舆情检测的实用性。
  具体过程如下:
  (1)确定带有分类类别的训练文档集合N = ( x1,x2,… xn)
  (2) 计算待分类文档到训练文档xi中的距离D(x,xi)=‖x-xi‖其中距离的算法采用欧氏距离测量方法。
  (3)如果D(x,xk)=min D(x,xi) (i=1,2,3…n)且xk∈ωj ,则分类的结果为x∈ωj。
  5.实验分析
  为了检测算法的性能抽取了天涯社区论坛中经济、军事、社会时事、情感、娱乐五个话题的帖子作为训练数据,其中每个话题抽取100个帖子共计500个帖子。测试文档同样来至于天涯社区论坛。随机抽取的200个帖子包含经济、军事、时事、情感、娱乐五个话题,每个话题均为40个帖子,采用文中的分类算法进行分类,检测它们的准确性。实验结果的分析采用召回率和精度两个广泛运用于信息检索和统计学分类领域的度量值。召回率是指检索出的正确分类的相关话题文档数和文档库中所有的相关话题数的比率。精度是检索出的正确分类的相关话题文档数与分类器分类出的相关话题文档总数的比率。对这五类话题测试的结果如表1所示。
  从表1可以看出采用本文的文本特征提取和话题分类方法结果令人满意,由于采用的方法简单因而系统的检测时间不长,效率较高。
  6.结束语
  随着网络的迅猛发展,舆情监测已经成为目前网络安全中的重要工作,对舆情进行分类,有利于发掘热点舆情,为网络的监控提供可靠的保证。面对海量的数据,准确而高效的方法显得尤为重要,因而舆情监测的方向是采用多种科学的方法保证监测具有较快的响应速度和较低的误报率。
  【参考文献】
  [1]毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010.47(12):2025-2036
  [2]郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000.20(1):58-65
其他文献
<正>据佛山和东莞公安部门公布的今年第一季度汽车上牌量数据显示,佛山今年为8.1万辆,东莞7.6万辆,两地都保持同比超过四成的高增长,更与紧随其后的广深拉开较大差距。随着汽
【摘 要】提到教科研,很多教师认为“教科研是神秘高深的学问,常常聆听专家谈,离自己太遥远。”也有老师觉得只要管理好班级就行,哪有时间去搞科研,缺乏对教科研的关注与兴趣。然而,教科研对老师既是机遇,又是挑战,它能让老师们不断地挑战自我、改变自我、完善自我。如何让习惯于一线教学工作的幼儿教师焕发对教科研的兴趣?  【关键词】教科研;故事;幼儿;成长  晚上,我翻开自己的随笔本,以前的案例映入眼帘。对了
中长跑是国家体质的测试指标项目之一,为了提高学生成绩作为体育老师必要加强了中长跑的练习次数和强度,在对学生进行中长跑教学中,我发现许多女学生对中长跑练习表现出畏惧心理,一上课心情紧张,两腿发软,各种借口见习,或在运动中出现头晕、肚子疼,眼睛发黑的症状,无法坚持下来,各种借口逃避。针对这一现象,我对学生畏惧中长跑的现象进行分析,并在教学中尝试了采用多种方法,来消除学生的畏难心理,取得了一定的成效。 
【摘 要】作文难现象在小学语文教学中普遍存在,教师教的艰难,学生学得辛苦,作文教学如何提高实际成效,要针对性分析其成因并开展突破,方可取得较好成效。  【关键词】小学作文教学;难点突破;分析研究  一、小学语文“作文难”成因  语文教学中面对作文难现象,首先要认真分析这一现象出现的原因。笔者归纳出来总共有四个方面:  一是缺少写作素材。小学生年龄小、阅历浅,生活接触不多、观察不细,脑海中可供作文创
【摘 要】随着我国教育事业的快速发展,小学语文課堂教学效率大大提高。在教学改革的今天,开发艺术化的小学语文课堂提问方式,能够促进学生在课堂中活跃思维,形成较强的思维能力。  【关键词】提问艺术;小学语文;课堂教学;教学策略  提问,是小学语文课堂教学的重要组成部分,艺术化的课堂提问,对于小学语文课堂教学有效性提高大有益处。应用提问艺术优化小学语文课堂的提问环节,是对学生的尊重,更是对教学工作的尊重