论文部分内容阅读
【摘 要】随着计算机网络的迅速发展,生活中发生的突发事件通过网络瞬间传播和扩散,这些带有倾向性的网络信息即网络舆情迅速成为人们谈论的焦点。怎样对网络舆情进行分析和正确的引导成为网络安全领域一个新的热点问题。文章通过采用统计方法对网络数据进行分析,对网络舆情进行分类处理,从而发掘网络舆情中新的热点问题。由于分类算法采用分类统计技术简单、高效从而保证了分析的准确性和即时性。
【关键词】网络舆情;最近邻分类;统计方法
导语
随着互联网的迅猛发展,网络成为全社会所有人发表和传播自己言论的场所,生活中的突发事件在网络中被迅速传播,其中对突发事件的评论有相当一部分言论被各种政治团体和敌对势力所控制,通过错误的言论控制人们的思想,因此,对网络中这些热点通过计算机进行分析、发掘并进行正确的引导是目前网络舆情中需亟待解决的问题。网络舆情监控系统通常采用复杂的机器学习技术对舆情中的话题进行分类,由于算法的复杂性速度较慢,文章通过把数学统计学中的距离运算引入到舆情分析,采用最近邻分类方法对舆情进行分类,解决了分类的实时性,从而提高舆情检测的实用性。
1.舆情数据的提取
网络舆情文本的提取一般通过爬虫实现。网络爬虫会选取一些备用的网址并把它们放入要抓取的网址队列中,通过域名解析得到对方的ip并将网页保存到下载网页库中。爬虫通过分析已抓取网页的各种链接通过一定的抓取策略一个链接一个链接抓取下去,直到达到系统的某些条件时才停止下来。
2.舆情数据的预处理
网络舆情数据的预处理包括背景噪声的去除,中文的分词,词性的标注和停顿词的去除等几个步骤。
被抓取后的网页除网页本身的信息外还有一些和网页无关的内容,如各种广告、游戏等内容。这些内容往往与网页本身无关,如果拿来分析会降低舆情分析的准确率,因此要去除这部分内容。广告、游戏这些背景噪声往往会链接到多个页面,即多个页面的链接出现的是同一个链接地址,因而,通过删除这些重复的链接地址对应的网页即可消除背景噪声对舆情分析的影响。
中文分词是把中文的一篇文章、一段文字或者一个语句分割为一个个单独的词。目前主流的分词算法主要包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。主流的分词工具包括中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,该系统采用多层隐马尔可夫模型实现中文的分词、词性标注和新词识别等功能。其词典除自带的以外还可按用户的要求进行手动的更新因而使用十分方便。CSW中文智能分词DLL组件则可讲一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词性和词频标注。
中文分词的词性主要包括名词、动词、形容词和副词等,其中的形容词和副词往往表示作者的情感取向和对某个事件的善恶态度因而它们决定了作者对舆情的价值取向,其中的动词往往表示作者的动作和采取的行动,是作者情感对外直接的体现,因而这些分词对舆情的分析是非常重要的。
停顿词是指词本身无明显词意与文本的内容无太多关系的词。绝大部分的助词如“的”,“地”,“得”等属于这一类。这些词在文本中出现的频率很高,对舆情分析的准确率存在较大的影响,因此在网络舆情数据的预处理时要去除这些停顿词。
3.文档特征的提取
文档特征的提取是中文分词后提取最能代表文档特征的一些分词作为文档的特征,这样既减小了分类算法的计算数据量又能提高分类的准确性。文档特征的提取最本质的方法是分析词频,因为词频在很大程度上决定了作者的情感和态度,因此目前文档特征提取的方法很大一部分是在分析词频的基础上发展起来的。目前在文档特征提取中常用的方法有信息增益法、期望交叉熵、互信息、χ2统计以及TF-IDF(词频-逆向文件频率)分析方法。其中TF-IDF运用最广泛,TF—IDF算法的核心是统计词频并比较词语在单个文档和整个文档之间出现频率的差异,并认为区分度最大的词语是在单个文档出现频率较高而在所有文档集合中出现的频率较低。它将词频分为单个文档中的词频和所有文档中的逆向词频两类,通过比较这两类词频找出文档的特征。其基本原理如下:
设词w在文档d中的词频tf(Term Frequency),同时词w在整个文档中的逆向词频为idf 则词频tf 为词w在文档d中出现次数count(w, d)和文档d中总词数size(d)的比值。
即tf(w,d)=count(w, d)/size(d)
整個文档中的逆向词频则为idf = log(n/docs(w,D))
即为文档总数n与词w所出现文档数docs(w,D)比值的对数。
tf-idf模型根据tf和idf为每一个文档d和由关键词w[1]...w[k]组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度
tf-idf(q, d)
=sum { i = 1..k | tf-idf(w[i], d) }
=sum { i = 1..k | tf(w[i], d) * idf(w[i]) }
4.文档特征的分类
文档特征的分类是舆情分析的关键,它决定了舆情分析
的准确率和速度。本文采用最近邻分类方法,解决了分类的实时性,从而提高舆情检测的实用性。
具体过程如下:
(1)确定带有分类类别的训练文档集合N = ( x1,x2,… xn)
(2) 计算待分类文档到训练文档xi中的距离D(x,xi)=‖x-xi‖其中距离的算法采用欧氏距离测量方法。
(3)如果D(x,xk)=min D(x,xi) (i=1,2,3…n)且xk∈ωj ,则分类的结果为x∈ωj。
5.实验分析
为了检测算法的性能抽取了天涯社区论坛中经济、军事、社会时事、情感、娱乐五个话题的帖子作为训练数据,其中每个话题抽取100个帖子共计500个帖子。测试文档同样来至于天涯社区论坛。随机抽取的200个帖子包含经济、军事、时事、情感、娱乐五个话题,每个话题均为40个帖子,采用文中的分类算法进行分类,检测它们的准确性。实验结果的分析采用召回率和精度两个广泛运用于信息检索和统计学分类领域的度量值。召回率是指检索出的正确分类的相关话题文档数和文档库中所有的相关话题数的比率。精度是检索出的正确分类的相关话题文档数与分类器分类出的相关话题文档总数的比率。对这五类话题测试的结果如表1所示。
从表1可以看出采用本文的文本特征提取和话题分类方法结果令人满意,由于采用的方法简单因而系统的检测时间不长,效率较高。
6.结束语
随着网络的迅猛发展,舆情监测已经成为目前网络安全中的重要工作,对舆情进行分类,有利于发掘热点舆情,为网络的监控提供可靠的保证。面对海量的数据,准确而高效的方法显得尤为重要,因而舆情监测的方向是采用多种科学的方法保证监测具有较快的响应速度和较低的误报率。
【参考文献】
[1]毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010.47(12):2025-2036
[2]郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000.20(1):58-65
【关键词】网络舆情;最近邻分类;统计方法
导语
随着互联网的迅猛发展,网络成为全社会所有人发表和传播自己言论的场所,生活中的突发事件在网络中被迅速传播,其中对突发事件的评论有相当一部分言论被各种政治团体和敌对势力所控制,通过错误的言论控制人们的思想,因此,对网络中这些热点通过计算机进行分析、发掘并进行正确的引导是目前网络舆情中需亟待解决的问题。网络舆情监控系统通常采用复杂的机器学习技术对舆情中的话题进行分类,由于算法的复杂性速度较慢,文章通过把数学统计学中的距离运算引入到舆情分析,采用最近邻分类方法对舆情进行分类,解决了分类的实时性,从而提高舆情检测的实用性。
1.舆情数据的提取
网络舆情文本的提取一般通过爬虫实现。网络爬虫会选取一些备用的网址并把它们放入要抓取的网址队列中,通过域名解析得到对方的ip并将网页保存到下载网页库中。爬虫通过分析已抓取网页的各种链接通过一定的抓取策略一个链接一个链接抓取下去,直到达到系统的某些条件时才停止下来。
2.舆情数据的预处理
网络舆情数据的预处理包括背景噪声的去除,中文的分词,词性的标注和停顿词的去除等几个步骤。
被抓取后的网页除网页本身的信息外还有一些和网页无关的内容,如各种广告、游戏等内容。这些内容往往与网页本身无关,如果拿来分析会降低舆情分析的准确率,因此要去除这部分内容。广告、游戏这些背景噪声往往会链接到多个页面,即多个页面的链接出现的是同一个链接地址,因而,通过删除这些重复的链接地址对应的网页即可消除背景噪声对舆情分析的影响。
中文分词是把中文的一篇文章、一段文字或者一个语句分割为一个个单独的词。目前主流的分词算法主要包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。主流的分词工具包括中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,该系统采用多层隐马尔可夫模型实现中文的分词、词性标注和新词识别等功能。其词典除自带的以外还可按用户的要求进行手动的更新因而使用十分方便。CSW中文智能分词DLL组件则可讲一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词性和词频标注。
中文分词的词性主要包括名词、动词、形容词和副词等,其中的形容词和副词往往表示作者的情感取向和对某个事件的善恶态度因而它们决定了作者对舆情的价值取向,其中的动词往往表示作者的动作和采取的行动,是作者情感对外直接的体现,因而这些分词对舆情的分析是非常重要的。
停顿词是指词本身无明显词意与文本的内容无太多关系的词。绝大部分的助词如“的”,“地”,“得”等属于这一类。这些词在文本中出现的频率很高,对舆情分析的准确率存在较大的影响,因此在网络舆情数据的预处理时要去除这些停顿词。
3.文档特征的提取
文档特征的提取是中文分词后提取最能代表文档特征的一些分词作为文档的特征,这样既减小了分类算法的计算数据量又能提高分类的准确性。文档特征的提取最本质的方法是分析词频,因为词频在很大程度上决定了作者的情感和态度,因此目前文档特征提取的方法很大一部分是在分析词频的基础上发展起来的。目前在文档特征提取中常用的方法有信息增益法、期望交叉熵、互信息、χ2统计以及TF-IDF(词频-逆向文件频率)分析方法。其中TF-IDF运用最广泛,TF—IDF算法的核心是统计词频并比较词语在单个文档和整个文档之间出现频率的差异,并认为区分度最大的词语是在单个文档出现频率较高而在所有文档集合中出现的频率较低。它将词频分为单个文档中的词频和所有文档中的逆向词频两类,通过比较这两类词频找出文档的特征。其基本原理如下:
设词w在文档d中的词频tf(Term Frequency),同时词w在整个文档中的逆向词频为idf 则词频tf 为词w在文档d中出现次数count(w, d)和文档d中总词数size(d)的比值。
即tf(w,d)=count(w, d)/size(d)
整個文档中的逆向词频则为idf = log(n/docs(w,D))
即为文档总数n与词w所出现文档数docs(w,D)比值的对数。
tf-idf模型根据tf和idf为每一个文档d和由关键词w[1]...w[k]组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度
tf-idf(q, d)
=sum { i = 1..k | tf-idf(w[i], d) }
=sum { i = 1..k | tf(w[i], d) * idf(w[i]) }
4.文档特征的分类
文档特征的分类是舆情分析的关键,它决定了舆情分析
的准确率和速度。本文采用最近邻分类方法,解决了分类的实时性,从而提高舆情检测的实用性。
具体过程如下:
(1)确定带有分类类别的训练文档集合N = ( x1,x2,… xn)
(2) 计算待分类文档到训练文档xi中的距离D(x,xi)=‖x-xi‖其中距离的算法采用欧氏距离测量方法。
(3)如果D(x,xk)=min D(x,xi) (i=1,2,3…n)且xk∈ωj ,则分类的结果为x∈ωj。
5.实验分析
为了检测算法的性能抽取了天涯社区论坛中经济、军事、社会时事、情感、娱乐五个话题的帖子作为训练数据,其中每个话题抽取100个帖子共计500个帖子。测试文档同样来至于天涯社区论坛。随机抽取的200个帖子包含经济、军事、时事、情感、娱乐五个话题,每个话题均为40个帖子,采用文中的分类算法进行分类,检测它们的准确性。实验结果的分析采用召回率和精度两个广泛运用于信息检索和统计学分类领域的度量值。召回率是指检索出的正确分类的相关话题文档数和文档库中所有的相关话题数的比率。精度是检索出的正确分类的相关话题文档数与分类器分类出的相关话题文档总数的比率。对这五类话题测试的结果如表1所示。
从表1可以看出采用本文的文本特征提取和话题分类方法结果令人满意,由于采用的方法简单因而系统的检测时间不长,效率较高。
6.结束语
随着网络的迅猛发展,舆情监测已经成为目前网络安全中的重要工作,对舆情进行分类,有利于发掘热点舆情,为网络的监控提供可靠的保证。面对海量的数据,准确而高效的方法显得尤为重要,因而舆情监测的方向是采用多种科学的方法保证监测具有较快的响应速度和较低的误报率。
【参考文献】
[1]毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010.47(12):2025-2036
[2]郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000.20(1):58-65