基于情感文本挖掘和分析的系统设计

来源 :科学与财富 | 被引量 : 0次 | 上传用户:dd100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:如何对网络中大量的文本数据进行挖掘和分析是大数据应用一个热点的问题,本文提供一种对文本数据进行挖掘和分析的新思路。以汽车口碑的文本数据为例,将采集的数据存入SQL SERVER 2008数据库,采用自然语言处理的方法处理数据,结合最大熵算法和支持向量机(Support Vector Machine, SVM)算法对数据进一步挖掘和分析。
  关键词:文本分析;数据挖掘;汽车大数据;SVM
  一、研究背景
  情感文本挖掘和分析是自然语言处理中的一个研究领域[1]。如何有效地挖掘网络情感文本中的数据,是当今网络舆情分析所面临的关键问题。[2]本文借鉴现有的研究成果,提出一种基于最大熵算法结合SVM的文本情感分析新思路,设计出一个基于情感文本挖掘和分析的系统。
  二、基于情感文本挖掘和分析的系统设计
  (一)数据的采集
  本系统使用基于WebCollector网络爬虫对汽车口碑进行爬取并将数据储存到SQL SERVER 2008数据库。
  (二)数据的预处理
  本系统创新地运用了HashSet类来存储不重复的对象[3];采用基于ANSJ的分词算法进行中文分词;使用基于哈工大停用词表的改进型停用词表进行停用词过滤操作。
  (三)特征词的提取
  针对“知网情感词典”和“台湾大学简体中文极性词典NTUSD”合并后的词典,我们通过人工添加新词的方法构建更合理的情感词典,提取评论的特征词。
  (四)文本向量化
  为了使计算机处理文本数据,我们需要将数据进行向量化。本文使用了著名的权值计算方法——词频-逆向文档频率(term frequency–inverse document frequency , TF-IDF[4])实现汽车口碑的向量化。TF-IDF是一种统计方法,用以评估特征词对于汽车口碑中情感倾向的重要程度。
  TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。特征词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。
  (五)情感分析
  1基于最大熵算法的情感分类
  这里我们使用的是Softmax回归模型,逻辑回归(Softmax)是最大熵对应类别为两类时的特殊情况 [5]。在Softmax回归中,类型标记y可以取k个不同的值。于是,对于我们的训练集便有。首先计算Softmax回归概率值,其中是模型的参数。这一项对概率分布进行归一化,所有概率之和为1。然后添加一个权重衰减项来修改原代价函数,让参数值保持比较小的状态,这个衰减项会惩罚过大的参数值,得到新的代价函数,利用求偏导数,求最小化,从而实现一个可用的Softmax回归模型。
  2基于SVM的情感细粒度分析
  假设存在训练样本,可以被某个超平面没有差错地分开,其中,m为样本个数,为n维实数空间,是分类间隔。因此和两类最近的样本点距离最大的分类超平面称为最优超平面。在条件下对求解一下最大的函数值,为拉格朗日乘子,再根据公式求解最优分类函数,是偏移量,是是共轭表达。从而得到SVM分类器[6]。
  三、结果分析
  本文对网上7种车型的口碑进行爬取,利用最大熵算法的Softmax分类器进行情感倾向分类得到结果如下。
  从图1可知购车者的汽车口碑的好坏评价比例,用户对逸轩的认可度相对比较高,正向的口碑在7种热卖的汽车中最高,负向评论的数据最少。从上述的分类系统中,我们可以比较直观的得到哪一类汽车相对符合大部分人的需求并推荐给其他购车者,同时也可以将信息反馈给车商,帮助他们更好地改进汽车制作工艺。
  对一种汽车中的汽车属性进行细粒度分析,其可视化结果如图2所示。
  细粒度分析可以人们对得到一类事物如汽车的各种属性的情感值,相对与综合情感倾向,有了更加细腻的倾向性,有利于更有方向的推荐。
  四、总结
  本系统将网络爬虫、文本数据预处理、特征词向量化结合最大熵算法和SVM,设计一个新的基于文本情感数据的分析系统,有良好的效果,希望可以对数据挖掘和分析领域有一定的参考价值。
  参考文献
  [1] 涂慧明. 文本觀点挖掘和情感分析的研究[J]. 电脑知识与技术,2016,05:235-237.
  [2] 冯时. 面向网络舆情分析的观点挖掘关键技术研究[D].东北大学,2011.
  [3] 王小华,卢小康. 基于N-Gram的文本去重方法研究[J]. 杭州电子科技大学学报,2010,02:61-64.
  [4] 张建娥. 基于TFIDF和词语关联度的中文关键词提取方法[J]. 情报科学,2012,10:1542-1544+1555.
  [5] 李学相. 改进的最大熵权值算法在文本分类中的应用[J]. 计算机科学,2012,06:210-212.
  [6] 王文华,朱艳辉,徐叶强,杜锐,鲁琳,邓程.基于SVM的产品评论属性特征的情感倾向分析[J].湖南工业大学学报,2012,26(5).
  作者简介:余伟江(1994年),男,汉族,广东汕头人,华南师范大学物理与电信工程学院,2013级本科生,通信工程专业。
其他文献
期刊
摘 要:随着我国区域经济一体化的进一步发展,经济发展和人们快节奏的生活需求对优质道路交通基础设置的需求将越来越高,这给我国道路桥梁建设事业提出了一个较高的目标与要求。本文重点分析了我国城市桥梁建设中存在的问题,并结合当前我国道路桥梁建设的现状,提出优化改进对策,研究结果显示:道路桥梁建设工程设计理念欠佳,道路桥梁的实用性难以得到延续;道路桥梁建设施工管理水平偏低,道路桥梁的安全性难以得到保障是我国
期刊
摘 要:变压器短路故障是变压器运行故障中的常见故障形式,对设备造成极大的损害,还可能引发安全事故。本文首先对110kv变压器短路故障表现形式进行分析,然后分析110kv变压器短路故障,探讨变压器运行过程中的检查内容,最后提出110kv变压器短路故障预防和处理措施,供有关人员参考。  关键词:110kv;变压器;内部短路故障;处理措施  变压器是变电站中重要的设备之一,是联系电网和变电站之间的桥梁,
期刊
近几年伴随着国家对电力、铁路、冶金、建材等行业的大力投资,致使电力操作电源的市场规模迅速增大。但是由于金融危机的影响和国家经济结构的调整,电力操作电源行业也受到了
摘 要:2012年的总统绿色化学挑战奖的的学术奖颁发给了来自斯坦福大学的Waymouth教授和Hedrick博士,表彰他们在发展有机催化剂方面做出的贡献。传统方法主要采用金属催化剂合成高分子聚合物,这存在一些不可避免的缺点,比如金属残留率高、不易降解,污染环境等等。因此,开发不含金属的有机催化剂很有必要。  关键词:绿色化学;有机催化剂;聚合物合成  Waymouth教授在近十年来发现了一类有机催
期刊
根据低压配网负荷的不同特点,科学地进行无功规划,合理地选择补偿方案及自动补偿装置是供电企业降损增效的重要措施.结合农村10kV配电网络的实际情况,着重阐述无功补偿在农村
通过分析220kV双楼变电站1号变压器高压侧中性点套管例行试验介损超标情况,得出中性点套管接触电阻增大是介损超标的原因.深入分析发现三通道法测试变压器绕组电阻时所测阻值
通过水培试验研究了细胞分裂抑制剂青鲜素(MH)对万寿菊(Tagetes erecta L.)生理生化指标及不同部位叶片Cd积累的影响及在MH处理下,外源喷施含硫化合物半胱氨酸(Cys)及谷胱甘
露地菊新品种‘繁星粉’和‘火焰’是分别以传统应用品种‘袖珍红’和‘秋艳’为母本,与多父本品种混合种植天然杂交获得实生后代,经物理诱变选育而成。‘繁星粉’花色深粉色
随着影像技术的迅猛发展,CT增强扫描在CT检查中占有的比例越来越大,而增强扫描的效果可直接影响诊断结果,因此做好病人的护理工作,既可让病人放松地接受检查,又可满足医疗诊