基于SVM的文本情感倾向性智能分析方法

来源 :赤峰学院学报·自然科学版 | 被引量 : 0次 | 上传用户:cheayu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   摘 要:情感分析属于一项具有强大实用价值的分类技术,可以识别出文本中隐藏的观点。为方便用户获取所需文学作品,本文提出基于SVM的文本情感倾向性智能分析方法。利用向量空间模型计算用户模型与文本匹配度模型的向量相似程度,增强文本信息的结构化特征,完成文本信息预处理;建立否定词、条件词等情感资源,确定特征提取规则,通过计算互信息值,以阈值高低为依据做特征提取,降低特征维数;将文本特征作为训练数据,获取分类线方程与分类间隔,求出最佳分类平面,明确情感倾向所属类别,再采用Logistic回归模型分析出情感倾向程度。仿真实验证明,该方法的查准率与查全率较高,表现出较好的情感智能分类性能。
   关键词:支持向量机;文学文本;情感倾向;智能分析;特征提取
  中图分类号:TP391  文献标识码:A  文章编号:1673-260X(2021)10-0016-04
  1 引言
   文学文本表示组成文学语言艺术品的语言系统,是表达人生体验的特殊语言结构,可分为诗歌、小说、散文等形式。随着科学技术的日新月异,如何从海量文学作品中选出优秀的文本对读者而言非常重要。文本情感倾向分析是计算机、智能信息与自然语言处理领域中较为活跃的分支。通过对文本主观内容进行过滤分析,识别并判断该内容表达的真正含义。在如今信息“沸腾”的时代背景下,每天会产生大量的新的文本数据,所以需要对这些内容进行高效分析,识别出情感倾向,方便用户获取想要的文学作品。
   为满足上述需求,相关学者提出如下情感倾向分析方法。陈潇[1]等人以半监督问答为基础,对文本数据进行褒义、贬义的分类。对已经标注过的文本与未经标注的文本进行分析,建立异构网络,再通过该异构网络获取相关词的向量,并将获取的词的向量在可分层匹配的情感分类模型中应用。王立志[2]利用改进粒子群优化的方法实现文本情感分析。利用word2vec词向量加权的方式量化信息,再将该信息作为可识别输入;引入交叉算子将粒子群的算法进行改进,并且交叉算子还可对损失、惩罚与核等函数进行优化,实现文本情感分类。
   但是上述两种方法没有准确的提取文本特征,包括一些重要的情感词与依赖关系等,影响情感倾向分析的准确性,给读者带来不便。为解决这一问题,本文的文本情感分析采用支持向量机(Support Vector Machine,SVM)进行。SVM是个较为智能的学习模型,具有监督功能,如实际存在非线性情况,可采用映射函数利用现有文本建立线性函数分类。此种空间转换可使该模型的分类能力大幅提高,有效解决了关于维数的灾难问题,本文模型还采用更有效的文本特征提取方法,进一步提高文本分析精度。
  2 基于SVM的文本情感倾向性智能分析
  2.1 文本数据预处理
   文本通常表现为字符串,表达丰富的信息,但是不能直接用于情感分析。数据预处理是文本情感倾向分析的必经阶段,主要目的是将计算机不能识别的、海量非结构化数据进行处理,使其满足计算机处理要求。
   本文对数据进行预处理可采用向量空间模型(Vector Space Model,VSM)的方式[3]。向量空间大都是利用自然语言查询,基于此,可将查询结果作为一个小信息处理,则在向量空间内的某一信息项可被表示为:
   公式中,n代表全部索引项,wjn则表示信息项 内索引项的权重。
   设定Dj为文本项,ki为索引项,ki在Dj中的出现频率为tfi,j,逆文档率为idfi,文本项数量越多,逆文档率越小,词语w的区分能力就越好,其中对于索引项权重的计算利用TD-IDF(Term Frequency-Inverse Document Frequency)方法进行,其计算公式如下:
   假设全部索引项ki是相互独立的,通过对上述相似度度量值的计算即可完成数据预处理,使所有文本信息具有结构化特性,为特征文本特征提取奠定基础。
  2.2 基于互信息值特征提取
   根據文本数据预处理结果可知,处理后的文本的特征向量较多,如果不对其中的关键词语进行选择,则会产生维数灾难[5],提高计算复杂性。所以需利用特征提取的方式去除关联性不强的特征,降低特征维数。
  2.2.1 情感资源建立
   本文对文学文本中的部分否定词、条件词语转折词等进行分析,建立情感资源。
   收集程度副词,计算不同强度值,程度副值与强度如表4所示。
  2.2.2 特征提取规则
   本文共制定如下五条特征提取规则:
   (1)文本中的关键词特征,确定名词、动词、形容词与副词数量。
   (2)否定词特性,将总次数对2取余,如果值为1,此时情感词的极性相反;如果值等于0,情感词极性不发生变化。
   (3)程度副词特性,如果情感词前面有程度副词,则文本情感强度随之变化。
   (4)条件句式特性,若情感词前面出现条件词,则条件句式特性值等于1,反之为0。经过对随机语料的分析,条件词对情感表达强度有弱化作用。
   (5)转折句式[6]特性,当情感词前面只有一种转折词时,则判定情感词极性为反;如果为两种,则表示不发生变化。
  2.2.3 文学文本特征提取
   特征提取利用数学形式表示即为从初始特征集合T={t1,t2,…,tn}内选择一个真子集合T′={t1,t2,…,tn′},其中n′≤n,则提取后的特征数量小于初始特征数量。本文通过计算互信息值(Mutual Information,MI)的方法来进行文本特征提取。    互信息值实质描述的是两个事件集合之间存在的关联性,针对特征提取而言,互信息表现出词条t′与类别ci存在的相关性,表达式如下:
  公式中,i表示类别数,p(t)代表t在训练集合中出现的次数,p(t′|ci)表示t′和ci一同出现的概率。针对计算得的全部MI值,进行由高到低排序,将阈值较高的词条当作特征词。本文特征提取流程如图1所示。
  2.3 潜在语义分析
   经过上述特征提取后,能够获取文本较为显著的特征,但是没有考虑“一词多义”的问题,因此,还需进一步对潜在语义进行研究。
   首先确定如下概率变量:P′(Dj)表示文本集合中选取文本Dj的概率,P′(wj|zk)代表在潜在变量zk约束下,某词语wj的条件概率,P′(zk|Dj)为潜在变量[7]中文本Dj的概率分布情况。
   根据以上定义,经过下述步骤可构成一个生成模型:
   步骤一:结合P′(Dj)随机选取一个文本Dj
   步骤二:在文本Dj基础上,通过P′(zk|Dj)选取文本表达的潜在变量zk。
   步骤三:获得一个不具有潜在变量的观察变量对(di,wj),将生成过程变为联合概率分布形式:
  构建完生成模型后,通过最大相似性表达式来确定参数,实现潜在语义挖掘。表达式如下:
  2.4 情感倾向智能分析
   将上述获取的文本表明特征与潜在特征当作训练数据,利用SVM构建分类器模型,即一个决策函数[8]。该模型可以接受没有类别标签的新样本输入。
   基于SVM的情感倾向分析的实质就是在n′维特征空间中确定最大间超平面,该平面能够将不同种类数据最大程度进行区分。基本思路图如图2所示。
   在图2中,H为分类线,Ha與Hc为穿过各自分类线最近的数据点且和分类线相互平行的直线。
   最优分类线不但能正确划分两种不同类型的数据,还能最大程度划分类间隔。获取分类线的方程式如下:
  公式中,w′表示斜率[9],属于一个常数,x′是横向坐标值,b为一个常数。
   在对文本进行情感分析时,对公式(12)做归一化处理,确保数据点集合(x′i,y′i)在满足公式(12)的同时也符合下述公式要求:
  Logistic回归属于一种数据挖掘[10]方式,其回归函数不仅持续递增,还和线性回归方程存在递减一致性,所以可通过该回归函数表示文本情感强度。具体过程是:利用回归函数使变量的无穷区间映射在[0,1]中,通过设置合理阈值来调节分类区间,构成持续特征表示。
   在反映文本情感倾向性强度过程中,在SVM分类基础上,使用Logistic函数的持续性表示情感趋势强度的走势。假定g(x″)=a′x″+b′代表初始线性方程,g(x″)是文本分类函数,且满足SVM分类面条件,则与其相对的Logistic回归强度函数表示为:
  3 仿真实验分析
   为评价不同方法对于文本情感分析的准确性,实验语料库利用Python开发的网页从当当网中获得文学文本信息。实验环境中存在五个节点,分别为2个Master与3个Slave,操作系统是Ubuntu14.04。为准确评价出文献[1]、文献[2]与本文方法的分析性能,利用查准率、查全率和F值三个指标进行评价。
   在已知不同文学分类文本特征情况下,文献[1]、文献[2]与本文方法的情感倾向分析结果如表5、6和7所示。
   由实验结果可知,随着特征种类的增多分类结果表现出良好特性,指标值都有明显提高。其中本文方法在无论在哪种特征组合下,都能表现出良好的情感倾向分析性能。这是因为支持向量机具有较强的学习能力,通过最优分类平面准确划分文本情感倾向,使情感分析更加智能化。
  4 结论
   本文利用SVM方法在多维特征空间中找出最大间隔超平面,通过该平面实现文学文本情感倾向分类,在Logistic基础上确定每种情感强度,完成情感倾向智能分析。实验证明所提方法的查准率、查全率与综合评价值均较高,表现出良好的分析性能。但是也存在一些不足,有待进一步改进。结合已有成果,后续工作主要研究可以自动完善情感词典,对于网络不断出现的情感词,能够及时更新,但是由于本文只考虑了简单词语对情感的影响,在今后研究中还需增加一些复杂句式。
  参考文献:
  〔1〕陈潇,李逸薇,刘欢,等.基于网络表示的半监督问答文本情感分类方法[J].郑州大学学报(理学版),2020,52(02):52-58.
  〔2〕王立志,慕晓冬,刘宏岚.采用改进粒子群优化的SVM方法实现中文文本情感分类[J].计算机科学,2020,47(01):231-236.
  〔3〕陈郑淏,冯翱,何嘉.基于一维卷积混合神经网络的文本情感分类[J].计算机应用,2019,39(07):1936 -1941.
  〔4〕党莉,陈锻生,张洪博.对抗长短时记忆网络的跨语言文本情感分类方法[J].华侨大学学报(自然科学版),2019,40(02):117-122.
  〔5〕吴鹏,李婷,仝冲,等.基于OCC模型和LSTM模型的财经微博文本情感分类研究[J].情报学报,2020,39(01):81-89.
  〔6〕赵传君,王素格,李德玉.跨领域文本情感分类研究进展[J].软件学报,2020,31(06):143-166.
  〔7〕吴小华,陈莉,魏甜甜,等.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报,2019,33(06):100-107.
  〔8〕林世平,林松海,魏晶晶,等.融合知识图谱的文本情感分析[J].福州大学学报(自然科学版),2020, 48(03):269-275.
  〔9〕张新生,高腾.多头注意力记忆网络的对象级情感分类[J].模式识别与人工智能,2019,32(11):997 -1005.
  〔10〕王名扬,吴欢,贾晓婷.结合word2vec与扩充情感词典的微博多元情感分类研究[J].东北师大学报:自然科学版,2019,51(01):55-62.
其他文献
摘 要:本文分析了在新工科视域下,应用型本科高校如何能够更好地提高学生的创新、创业思维学习模式等问题。提出应用型本科学生在创新创业活动开展过程中如何完成和健全创新创业沙龙体系研究,实现从“学生自主”到“学管结合”,从而更好地为当下在校大学生创新创业教育及活动的开展与管理提供新的尝试与借鉴。   关键词:新工科;应用型本科;创新创业;体系建设  中图分类号:G640 文献标识码:A 文章编号:167
摘 要:目的:了解内蒙古自治区公众对新型冠状病毒肺炎的认知程度,防范意识及相应的防护措施。方法:设计网络问卷,采用自愿抽样的方法,在线填写网络问卷。结果:问卷填写有效问答率为93.86%(1974/2103)。在1974份问卷中,对传染源和传播途径的知晓率分别为82.37%和91.64%。年龄、文化程度对COVID-19相关知识的知晓率有统计学意义。94.37%被调查者知晓75%乙醇为有效消毒剂。
摘 要:大学计算机应用基础教学对非计算机专业学生运用计算机有着非常直接的影响。学好大学计算机应用基础课的学生,如果在大数据、人工智能等方面发展的话,也会直接影响其解决问题的能力。当前的大学计算机应用基础教学的教学内容与教学方式比较陈旧单一,很难满足当前全面智能化时代对学生能力的要求。分析课程浅层表象的建立和深层的本质,需要在课堂、实验、线上线下三个方面来培养学生的学习能力,知识挖掘能力和创新能力,
摘 要:通过对西方经济学专业课程的教学改革探索,统一教师认识,精心设计内容,充分挖掘和提炼本课程中蕴含的思想政治教育资源,把思想政治教育元素有效融入课堂混合式教学的全过程和课程实践教学的各环节,构建“明晰教学思路、完善教学内容、创新教学方法、健全考核体系”课程思政教学模式。本教学改革实践坚持把立德树人作为根本任务,坚持马克思主义立场观点方法,掌握市场经济基本理论和分析方法,学习借鉴西方经济学科学成
摘 要:石墨烯是大家广泛认可的在许多方面都有广阔应用前景的重要新兴材料,这归功于石墨烯稳定的结构及优异的理化性质。本文主要综述了石墨烯的制备及其功能材料的非线性光学性质的理论研究。经科学家们不断的实验发现,石墨烯的非线性光学物理性质突出,此外石墨烯的一些功能材料表现出的反饱和吸收、饱和吸收[1]、非线性折射等特性使其在激光防护和光开关等领域有很好的应用前景。但石墨烯缺陷、表面修饰与其非线性光学间的
利用扫描电镜(SEM)和能谱仪(EDS)等手段,并结合热力学理论计算,研究了浸泡在1173 K温度下脱水不完全的CaCl2熔盐中的固态SiO2圆柱样显微特征变化及其原因,初步分析了CaCl2盐的水解反应对固态SiO2电解特性的影响.结果表明,未严格脱水操作的CaCl2盐很容易高温水解,生成的CaO在熔体中的活度只要不低于0.001,即可与SiO2逐级形成CaO·SiO2(CS)、3CaO·2SiO2(C3 S2)和2CaO·SiO2(C2 S)等多种硅酸盐,导致圆柱体外表面的形貌、结构发生较大变化;圆柱体