基于双向注意力机制的问答情感分析技术研究

来源 :企业科技与发展 | 被引量 : 0次 | 上传用户:cythcle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【关键词】双向注意力;问答情感分析;深度学习
  【中图分类号】TP391.1 【文献标识码】A 【文章编号】1674-0688(2021)09-0095-03
  0 引言
   随着时代发展进程的不断加快,处于Web2.0时代背景下,各大电商平台获得了迅猛发展,大量卖家选择刷单作为提升自家店铺销量和信誉度的方法,这种不正当行为给用户购物带来了负面影响。所以,如何准确地挖掘产品评论舆情,对虚假的网络平台严格遏制,成为目前各大电商平台迫切需要解决的问题之一[1]。于是,各大电商平台近年来逐渐推出问答型评论这一功能,此功能可以满足潜在买家对自己所关注商品,提出自己疑惑的问题,平台会以用户的购物信誉度随机挑选已经购买此产品的用户,对问题进行回答[2]。这一功能的应运而生相较传统商品评论,在很大程度上避免了产生虚假信息,也能够为潜在购买者提供更可靠、具体的回答[3-5]。怎样对问答型评论内信息进行充分挖掘与分析,为商家和平台用户提供可靠的产品信息导向,本文提出通过深度学习基于双向注意力机制的问答情感分析技术进行问答情感分类。这不仅在目前有关问答文本情感分析研究领域上具有理论创新意义,也能保证电商平台公平性,帮助商家调整产品营销策略,提升信息转化率,促进我国电商事业良好发展具有指导价值。
  1 主要技术概述
  1.1 分布式词向量模型
   在运用深度学习前期,一般在文本表示上要构建向量空间模型,自1986年Hinton提出词向量,作为向低维空间映射的向量,用于表示词语间语义关系的一种形式。在以往研究中,大多采用训练语言模型获得词向量,建立连续词袋模型,以上下文为依据,对目标词语进行预测,能够获得对应词向量。该模型给定wt该词的上下文ct=wt-n,…,wt-1,wt+1,…,wt+n;那么,该词出现条件概率公式如下[6]:
   给定训练样本(w1,…,wt),建立连续词袋模型目标函数公式如下:
  
  1.2 长短时记忆神经网络
   长短时记忆神经网络于1997年提出,作为循环神经网络的一个变体,能够成功地解决循环神经网络内存在的梯度消失、爆炸等问题,廣泛应用于文本分类、语音识别、机器翻译等领域。相较传统循环神经网络,因为记忆单元加入其中能够很好地保存历史信息,所以能够有效避免梯度爆炸、衰减问题。
   传统循环神经网络主要是单向序列模型,本文运用的是双向循环神经网络,包括两个循环神经网络,■t、■t分别代表过去、未来信息高层语义,公式如下[7]:
  
   双向长短时记忆网络能够替换双向循环神经网络中前、后各项网络,均为长短时记忆网络(如图2所示)。
  1.3 语料资源
   首先,在语料收集中,本文运用爬虫程序收集源于京东、淘宝平台“问大家”这一问答功能中的问答评论,集中在美妆、鞋、数码产品这三大领域,问答评论共计收集20余万条。
   其次,在语料标注中,本文主要划分为两个部分,一是判断问答型评论情感,二是标注规范问答评论的正、负情感。
   最后,在语料统计中,本文所统计的问答文本情感分类语料库信息,统计了3个领域各自10 000条问答文本,共计30 000条(见表1),作为统计的语料内情感类别分布情况。
   根据表1统计情况发现每一个领域都存在正、负情感数量差距,所以面向问答文本情感分类面临巨大的不平衡问题。
   一般情况下,分类任务内机器学习领域衡量分类指标包括正确率、召回率、精准率、F值,表示公式如下[8]:
  
   公式(4)~公式(6)中:分类预测总计样本数量用TP表示;其他分类器错误预测样本数目用FP表示;分类器错误预测其他类别样本数目用FN表示;其他分类被分类器正确预测对应类别样本数目用TN表示。
   其中,F作为精准率、召回率评价指标,公式如下[9]:
  
   根据公式(7),在β为1的情况下,召回率、精准率二者同样关键,在β>1的情况下,相较召回率,精准率更加重要,反之,β<1则召回率更加重要,本文中β值均取1。
  2 基于双向注意力机制的问答情感分类
   该方法不同于传统情感分类,对于问答文本情感分类运用上文提出的双向神经网络解决,建立双向注意力机制神经网络模型(如图3所示)。
   首先,在输入映射层,主要需要转变问、答文本内词语为词向量,输入至该神经网络中。
   其次,在Bi-LSTM层,需要运用上文提出的双向LSTM获得问、答文本高层语义信息。
   再次,在注意力层,运用注意力机制分别在问答文本内提取关键情感相匹配信息。
   最后,在Softmax层,经该层完成问答文本向量的情感分类。
  3 实验分析
  3.1 实验设计
   结合上述两部分的基础技术与建立的双向注意力机制神经网络模型,对前期提取的10 000条问答数据集作为输入样本展开试验分析,划分了70%的训练集、10%的样本集、20%的测试集。在对样本进行分词后,通过Word2vec训练词向量共计200 000条问答。在本次实验中,运用SVM算法经Kreas完成LSTM神经网络模型,验证本文提出该分析技术的准确率与FI值。
  3.2 实验结果
   为了验证本文提出的基于双向注意力机制的问答情感分析技术的准确性与有效性,对比设计了几种情感方法,得出试验结果(见表2)。
   根据表2能够发现,相较SVM分类器,运用神经网络分析具备更优越的性能,证明了本文提出对问答情感分析采用神经网络方法的可行性;通过分别对比Uni-ATT Q、Uni-ATT A、Bi-ATT 3种输入方法发现,问答文本情感分析如果拼接处理并不适合;通过在本次双向注意力机制神经网络模型中输出问答文本,对比Bi-ATT与单向注意力机制分析方法Uni-ATT Q、Uni-ATT A能够看出本文提出此分析方法的性能更好。    根据以上研究结果,为了进一步验证本文提出此种问答情感分析技术的有效性,选择目前该研究领域更新型处理方法展开对比,其中对比CNN-Tensor(此方法目前在句子级情感分类领域的性能最优)、ATT-LSTM(作为目前该研究领域在属性级情感分析中能够达到的性能最优方法,经LSTM隐层输出即可获得分析权重)、BiMPM(此方法能够在该研究领域问答匹配任务上达到最优性能),通过对比得出试验结果(见表3)。
   根據表3能够发现,本文基于双向注意力机制的神经网络模型对问答文本情感分析的准确率与FI值,相较其他几种方法明显更优,证实了该方法能够准确地对问答文本情感相匹配信息进行有效的捕捉。将本文提出的方法对比BiMPM方法,反映出问答情感匹配机制的应用性能优势,并且将Bi-ATT相较其他方法,同样发现本文提出的方法可以对问答文本中情感匹配信息进行高准确率的捕捉。
  4 结论
   本文提出了基于双向注意力机制的问答情感分析技术,建立了基于双向注意力机制神经网络模型,并对本文所应用的主要技术进行说明,通过输入映射层、Bi-LSTM层、注意力层、Softmax层构建了分析模型。将本文提出的方法对比了几种情感分类方法,根据试验结果发现本文提出此分析方法的性能更好;为了证实本文提出此分析技术的准确度,又进一步对比分析了目前最新的几种处理方法,研究发现本文提出的基于双向注意力机制问答情感分析方法准确率更高,达到76%的问答情感分析准确率,FI值最终为62%,在实验中相较其他分析技术的应用效果明显提升。
  参 考 文 献
  [1]翟社平,杨媛媛,邱程,等.基于注意力机制Bi-LSTM算法的双语文本情感分析[J].计算机应用与软件,2019,36(12):251-255.
  [2]陈亚茹,陈世平.融合自注意力机制和BiGRU网络的微博情感分析模型[J].小型微型计算机系统,2020,41(8):24-29.
  [3]支淑婷,李晓戈,王京博,等.基于多注意力长短时记忆的实体属性情感分析[J].计算机应用,2019,39(1):160-167.
  [4]梁斌,刘全,徐进,等.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735.
  [5]林原,李家平,许侃,等.基于多头注意力的双向LSTM情感分析模型研究[J].山西大学学报(自然科学版),2020,43(1):1-7.
  [6]王丽亚,刘昌辉,蔡敦波,等.CNN-BiGRU网络中引入注意力机制的中文文本情感分析[J].计算机应用,2019,39(10):2841-2846.
  [7]孙凯.基于词注意力的BiLSTM和CNN集成模型的中文情感分析[J].计算机科学与应用,2020,10(2):312-324.
  [8]胡德敏,褚成伟,胡晨,等.预训练模型下融合注意力机制的多语言文本情感分析方法[J].小型微型计算机系统,2020,41(2):278-284.
  [9]胡朝举,梁宁.基于深层注意力的LSTM的特定主题情感分析[J].计算机应用研究,2019,36(4):121-125.
其他文献
【关键词】Park算法;改进算法;可见光通信系统  【中图分类号】TN929.12;TN914.332【文献标识码】A【文章编号】1674-0688(2021)09-0034-03  0 引言   随着移动互联网行业的快速发展,高速的Wi-Fi在人们的生活和工作中已经不可或缺,但是Wi-Fi技术存在应用领域被限制、频谱范围窄及安全性较差等问题[1],于是VLC技术应运而生。VLC技术很好地解决了
【关键词】金融;产业;融合  【中图分类号】F27 【文献标识码】A 【文章编号】1674-0688(2021)09-0024-03  0 引言  从国际环境看,国际金融体系加快朝多元化方向发展,我国金融将在更大范围、更广领域和更高层次上参与国际竞争和辐射服务。从国内环境看,我国将继续深化金融体制改革,降低民营资本、国际资本进入金融行业的门槛,以互联网金融、金融科技、财富管理、创业投资等为代表的金
【关键词】单片机;定速巡航;PID控制;燃油经济性  【中图分类号】U463.6 【文献标识码】A 【文章编号】1674-0688(2021)09-0037-05  0 前言   汽车巡航控制系统是控制速度稳定的一种辅助驾驶员驾驶车辆的系统。当驾驶员驾驶车辆时,车速一旦到达设定的巡航系统开启的最低速度后,只需打开巡航开关,再按下巡航速度设定键,汽车将按设定的行驶速度稳定行驶。若要更改巡航速度,只
【关键词】罗江流域;水环境质量;水陆统筹;治理措施  【中图分类号】X522;X505 【文献标识码】A 【文章编号】1674-0688(2021)09-0077-03  0 引言   罗江是流经桂粤两省的重要跨界河流,发源于广西北流市扶新镇,经白马镇、大伦镇流入广东境内,最后汇入淦江,罗江流域上游水质的好坏直接关系到广东省、罗江下游地区广大人民群众的饮用水安全。近年来,罗江流域(北流段)范围内
为正确做出送货车租购决策,以成都市物流中心数据为例,构建投入成本模型并采用折现法分别计算送货车辆租赁和购买的投入成本。经分别计算燃油车购置和电动车租赁的投入成本现值,为烟草商业物流实现精细化投入的成本控制进行有益尝试并提出针对性对策建议,即建议以租赁电动车作为主要的车辆增加方式。
【关键词】互联网金融;业态模式;发展建议  【中图分类号】F830.59 【文献标识码】A 【文章编号】1674-0688(2021)09-0098-03  0 引言   随着金融全球化的不断发展,我国已经进入互联网金融的快速发展阶段[1]。引导互联网金融健康发展对我国经济建设具有引导性的作用。首先,互联网金融为一些中小微企业的融资需求提供了支持,自古以来,中小微企业在我国经济发展中的地位都是不
【关键词】资金管理;财务费用;相关思考  【中图分类号】F275 【文献标识码】A 【文章编号】1674-0688(2021)09-0107-03   对于企业资产的具体组成,货币资产是重要部分,货币资产是企业长久运作的基础要素。企业机构的资金核算与管理直接影响企业发展速度,立足于企业的视角,资金信息与产品信息是至关重要的。企业所有的运营与生产过程都与资金信息存在关联,所以加强资金信息管理可推动
【关键词】区块链;物联网;人工智能;加密货币  【中图分类号】TP311.13;F832.49【文献标识码】A【文章编号】1674-0688(2021)09-0101-03   全球经济学家和IT专家普遍认为,区块链市场具有很高的增长潜力。根据最近发布的世界经济论坛(WEF)报告,区块链的去中心化账本和智能合约技术将在一定程度上消除贸易壁垒,伴随着更好的服务和更低的贸易费用,预计到2028年,区
旅游产业具有关联度高、带动效应明显的特性,对促进地区经济发展有明显的作用。文章以广东省梅州市为例,通过旅游业依存度、旅游业贡献率和旅游业拉动率综合分析旅游产业对地区经济增长的拉动效应。同时,利用2010年至2019年梅州市各县区的面板数据对旅游产业的拉动效应进行实证分析。结果表明,梅州市旅游产业对地区经济增长具有正向的促进作用。
【关键词】沼气;集中供气沼气工程;转变;可持续发展  【中图分类号】S216.4 【文献标识码】A 【文章编号】1674-0688(2021)09-0031-03   沼气是有机物质,如碳水化合物、蛋白质及其代谢物等在厌氧条件下,经过微生物的发酵作用而生成的一种混合气体,主要成分包括甲烷、二氧化碳、硫化氢等,其成分与天然气类似。沼气经脱硫,可直接燃烧用于炊事、供暖及照明等,也可用于发电[1]。由