基于多级语义融合的中文隐式情感语句分类研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:z504555643
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G技术的普及和应用,各类社交媒体平台与电子商务网站的发展迅速,网络上产生了海量涉及个人情感信息的文字数据。通过分析这些文本数据,可以更准确地获知评论者的意见,为商家的商业经营提供支持,帮助决策机构监管舆情。设计合理高性能的模型发现并分析在大量文字数据中蕴藏的情感信息,成为了情感分析中的一个重要任务。文本情感分析包括显式情感分析和隐式情感分析。目前针对显式情感分析的研究已经比较成熟,然而隐式情感分析仍处于起始研究阶段。网民在社交平台上在发表评价时,经常采取更含蓄、更委婉的语言表达方法,而对此类文本进行隐式情感分析,将会为社会舆情的管控(如对虚假信息的及时发现与澄清)、商业经营(商品评论有助于商家制定合理的销售策略)等方面提供更加精准的帮助。在隐式情感识别的研究中,多数以卷积神经网络和长短期记忆网络作为模型的基础算法,这两种方法各具优势,但同时也还有不足之处。因此,本文通过卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)构建一个双通道的神经网络模型,生成一个包含多个层级特征的语义表示,在融合词语、情感句以及上下文特征方面开展了研究。本文主要围绕着三种类型(褒义/贬义/中性)的隐式情感倾向,进行了如下的工作。(1)对隐式情感文本数据进行分析,发现在大多数情况下,一个句子单独来看不含有任何情绪,而在将其置于特定的上下文语境中时会显示出某种情绪。所以本文借助可变卷积神经网络(VCNN)提取情感标签句局部特征,包括句子维度和词向量维度上的语义表示,使得情感目标句中的句子级语义特征更为全面和精确;借助双向长短期记忆网络(BiLSTM)为目标句上下文句子学习语境信息,并利用自注意力机制对文本中的词汇给出不同的贡献程度分值,以提升分类的准确性,而且与注意力机制相比较,对外部信息依赖性更低,由此提取出篇章级全局特征。为了使语义特征表示更全面,在提取文档深层特征的同时考虑浅层特征,将词性特征加入到语义特征中,即在VCNN通道的输入矩阵中添加了情感目标句中词语的词性向量(Part of speech)矩阵,将词性向量与词向量进行拼接共同输入到分类器中,由此得到词语级的词性浅层特征。实验结果表明,融合了多级语义的分类模型的准确率为75.9%,宏平均F1值为0.763,相比于单一的神经网络,混合神经网络在隐式情感分析任务中能够更高效地学习语义信息,多级语义特征表示扩充了原始特征中含有的信息量,能实现更好的语义理解。(2)根据多级语义特征与动态路由算法构建中文隐式情感分类模型CISC-MSF(Chinese Implicit Sentiment Classification Based on Multi-level Semantic Fusion)。在BiLSTM算法之后,使用自注意力机制为BiLSTM通道中的上下文语义特征分配注意力权重,更好地把词语特征中的重点表现出来。但尽管某些重要特征能够通过注意力机制来关注和度量,但注意力机制一经编码便不能再接受更多的信号,也难以学习文本隐藏的情感特征。因此,借助动态路由算法在动态编码方面的优势,将情感目标句与上下文语句的特征向量拼接输入到动态路由机制中,使得学习到的信息更加丰富。实验结果显示,CISC-MSF模型分类指标宏平均F1值为0.789,准确率为81.3%,中性、褒义、贬义三类情感句的宏平均F1值分别达到0.894、0.710、0.746,其中CISC-MSF在判别中性、褒义情感倾向任务中表现较好,相比大部分中文主流隐式情感句分类模型,本文模型具有更佳的分类效果。(3)将本文所提的模型应用到具体的微博热点话题中,获得了79.3%的准确率,比起BiLSTM、BiLSTM+att模型高出21%和15.8%。同时也举例说明了情感目标句上下文语句的情感倾向会影响目标句情感倾向的判别,当两者情感倾向一致时,上下文语句将会对目标句情感倾向的判别起到加强作用;当两者情感倾向相反时,上下文语句将会对目标句情感倾向的判别起到误导作用。此次实验证明了本文模型的实用性,能够将模型应用在热点话题发现、文本情感分析、垃圾邮件检测、舆情信息监测与分析、信息安全管理等场景中。这将有利于政府了解网民当前关注的热点话题事件及对事件表达的看法,可用于监测社会舆情、并通过一些正能量的话题引导并控制网络舆论;企业也可以通过分析各大网络平台热点话题、评论,分析用户的产品或服务需求,实现市场精准营销和个性化推荐,隐式情感分析效果的提升将更有利于商业价值和社会价值的提高。
其他文献
金融衍生品交易策略研究是建立在自身的定价基础上的,二者密不可分。期权作为金融市场中重要的衍生产品,也是较为活跃的一类合约,学者们一直对期权定价的问题重点关注。因此关于如何对期权进行有效的定价,提高期权价格预测的精准度,从而制定相关的交易策略都显得至关重要。合理的定价和预测对投资者规避风险、套期保值,对维持市场的平稳运行,进一步提高市场效率都具有重要的参考意义。随着期权定价理论的不断发展,衍生出了许
学位
随着5G技术和社交媒体的发展,网络视频已成为信息传播的主要载体之一。当用户通过信息检索了解某话题时,往往会返回大量杂乱无章的视频,使得用户只能在有限时间内观看较少的内容,降低了信息的获取速率。同时,嘈杂的视频可能导致用户易造成对某一话题或事件的片面认知。因此,基于网络视频的事件挖掘相关研究对于热点话题事件梳理及舆情导向具有重大意义。网络视频一般包含视觉信息和文本信息。对于视觉信息,视觉检测方法如以
学位
我国经济社会飞速发展的同时,生态破坏、环境污染问题日益突出。自生态环境损害赔偿制度实行后,取得了多方面进展,赔偿磋商是其中一个重要机制,但关于磋商的规定仍然不够细化,因此建立赔偿磋商机制解决此类问题备受各方关注。区别于以往文献多探讨磋商的法律性质、救济途径以及程序性规定,本文从博弈的视角对磋商过程进行分析。赔偿标准是否科学合理,决定了磋商能否顺利进行以及能否得到兼顾赔偿双方利益的结果。本文梳理了国
学位
近年来,随着“新冠”疫情的爆发,在互联网上有关于该突发公共卫生事件的关注和讨论日增不减,而如何了解和把握此类事件的网络舆情,以便更好的引导舆情朝着积极方向发展,也引发了众多研究人员的思考。本研究围绕突发公共卫生事件网络舆情展开,研究具体事件背景下的网民观点演化规律,结合了观点动力学模型,预训练语言模型,图卷积网络等多种方法对观点演化过程进行建模。由于突发公共卫生事件本身所具有不确定性和危机性,同时
学位
随着现代银行间市场的发展、全球经济不确定性的深入,银行间形成了复杂的债权债务关联,该关联性为银行风险提供了扩散途径。同时,我国银行体系将面临着错综复杂的外部因素,金融体系的创新也给银行系统带来了另外的挑战和风险,迫使银行从传统向金融科技转型。另外,银行系统利用信用违约互换等方式让其关联变得更加错综复杂。因此,分析银行同业之间的关联关系,研究银行系统的风险传染机制,有着至关重要的现实作用。针对此,本
学位
股票停牌是基于提升股票价格发现效率、抑制股票剧烈波动、消除信息不对称的初衷所设立的交易机制,在保护投资者利益和稳定交易秩序上发挥了重要作用,被世界各国主要证券市场广泛接受和实施。我国于1998年开始实施股票停牌,其大致经历了信息不完全对称下的发展、证券市场发展下逐步完善和国际接轨中的探索与改进三个发展阶段。虽然监管机构在三个阶段中对股票停牌进行了多次制度变革,但停牌种类繁多、频次较高的问题始终所为
学位
近年来,国家出台“三线四档”等政策,增加房地产行业的银行借贷门槛,在这种背景下,房地产违规信贷现象屡禁不止。罚单的数量和金额表明监管机构对违法违规行为的惩治决心和力度,但也从侧面说明“罚单式”监管模式的效果欠佳。房地产开发过度依赖银行信贷,不仅危及自身,也会将房地产市场的隐患传导至银行系统,进而引发系统性金融风险。因此,商业银行房地产信贷风险亟须得到有效评价和监管,研究该问题对于引导资金脱虚向实,
学位
个人信用评估对信贷机构降低经营风险,增加营业收益具有非常重要的作用。随着大数据技术的迅猛发展和普及,快速且精准的数据挖掘以及智能学习技术成为信用评估的主流手段。信用评估可以看作是一个二分类问题,即区分客户是违约客户还是未违约客户,但不同类型的客户被识别错误给信贷机构所造成的损失是不一样的,这一特点要求评估模型不仅具有较高的分类准确率,而且也要考虑不同类别间数据样本的误分类代价。本文在充分考虑信用评
学位
近年来,云计算、大数据、物联网、区块链、人工智能等新一代信息技术发展迅猛,金融科技对金融业中的主要参与者带来全新发展思路。与欧美等发达国家相比,我国金融科技起步较晚,但正加快发展脚步,以实现超越。金融科技对我国商业银行的影响具有一定的复杂性:互联网金融的风靡,对传统商业银行带来强烈的冲击,但同时也倒逼商业银行开始转换思路,谋求新的发展路径。然而随着新一代信息技术的发展,其与金融领域的结合也越来越紧
学位
一方面,中国的城市化发展已经从注重增长速度的传统城镇化转变为注重质量提升的新型城市化,而以往的城镇化过程中产生了不少的问题,如空气污染、水污染等环保问题以及道路和房屋等城市生活问题,而交通拥堵是新型城市化建设中最重要、最紧迫的问题之一;另一方面,随着市场经济的发展以及民众生活水平的日益改善,更多的人有了属于自己的私家轿车,根据公安部门的最新数据,2019年全国注册的汽车数量新增2578万辆,全国汽
学位