基于层次性注意力融合网络的中文文本情感分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xiaobaby2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网高速发展,越来越多的产业加入到了信息化群体中,如电子商业、电子阅读、音乐播放、新闻媒体等,而这些产业早已融入到人们的日常生活和娱乐中。人们在享受互联网带来便利的同时,大多都习惯留下自己对产品和服务的评论或意见。例如,酒店的评价包含了大量的用户反馈信息,而这些信息具有较大的研究价值。所以,如何从大量的评论中快速提取出情感信息,并对不同情感极性的评论进行分类,已成为大部分互联网服务面临的重大难题。目前,传统的语言处理模型具有参数量大、处理耗时长的缺点,并且在类似酒店评论长文本分类问题中,不易获取有效的上下文信息。然而,基于层次网络结构的语言模型,通过分层依次处理词、句子和文档,并将多注意力融合到其中,从而大大提升了文本分类的性能和效率。本文具体研究内容如下:1.中文分词是文本分类中不可缺少的部分,例如常见的Jieba分词器倾向于分出更长的词。为了提高分词效果,本文将Jieba分词和Hanlp分词进行合并,从而提高中文分词的准确度。然后,针对传统词嵌入过程中在词性标注的基础上给文本中的程度副词赋予权重,并与词向量进行融合,得到最终的词嵌入。通过实验验证,本文采用的多分词器法及程度副词融合词向量法相较于传统的词向量法具有较好的性能。2.针对传统语言模型在编码过程中会忽略副词对情感特征的影响,本文对分词结果中的程度副词赋予权重,并将该权重与词向量相乘作为编码器的输入。同时考虑到文本中各词语的相对位置关系对上下文语义的影响,将相对位置编码融合到输入中,从而更加精确地提取文本的情感特征。另外,针对输入样本数量过大会导致时间成本和空间成本过高的情况,本文采用了词嵌入共享压缩的方法,经实验证明,在一定程度上,降低了词嵌入时间和空间的消耗。3.常见的语言模型中,卷积神经网络在处理短文本分类任务时效果显著。然而,互联网中评论长短不一,当文本样本较长,卷积神经网络的效果就不如循环神经网络好。因此,在循环神经网络的基础上,本文采用层次性网络对酒店评论进行特征提取,将文本特征提取的过程分为词级和句级两部分。其中,编码部分采用Bi LSTM,解码部分采用多头自注意力,不仅考虑到上下文对目标文本的影响,还考虑到关键词对文本的重要性,该方法相较于传统的情感词典法、HAN以及HAHNN在分类精度上均有提升。
其他文献
传统多智能体系统一致性问题的相关工作主要集中在系统模型设计和稳定性条件获取上,很少涉及系统控制的最优性。而在实际工程中,如何使系统以最小的代价来完成某一任务目标也是非常重要的。目前,大部分最优控制相关的工作仅基于智能体之间的合作交互,且需要精确的系统模型,这就极大的限制了其理论成果在实际环境中的应用范围。此外,这些相关工作难以处理多目标或者并行分布式任务,并且其采用的时间触发模式会占用大量的系统资
学位
在计算机和互联网技术的高速发展时期,文本数据呈指数增长,更新速度较快。文本信息的发展也逐渐多样性化,复杂化,丰富化。社交网络中的各种书籍评论、电影评论和的新闻中的信息量对于用户来说无疑是巨大的,复杂的。此外,用户要想从成千上万的评论中逐条翻阅查找数据或者是从巨大的语料库中寻找文件必要耗费巨大的精力和时间,十分困难。因此挖掘出这些文本信息的潜在含义和自动从文本提取有用的信息已经成为自然语言处理重点研
学位
期刊
随着智慧城市步步推进,城市的监控摄像头数量急剧增加,由此产生的行人图像数据规模在迅速膨胀。在图像数据呈爆炸式增长态势的前提下,对海量监控数据进行有效的人工分析费时费力。如今,对于海量图像数据的处理,已经不单单满足于记忆存储的简单处理,而是需要提高到语义分析和理解的层面。由于视频图像是一种典型的非结构化数据,需要利用智能算法进行结构化分析。行人属性识别作为一种典型的视频结构化手段,能够高效地从视频中
学位
21世纪是信息技术的大爆发时期,软件产业的应用范围在不断扩张,高度的信息化给企业和个人都带来巨大的改变以及极大地便利。随着工业制造领域产业分工的细化,越多越多的企业运营依赖于计算机软件节约时间,软件应用可以帮助企业更好地发挥企业核心竞争力,提升工作效率,使其更好地参与到外部竞争。为了降低成本选择将软件开发外包至国外,还有优化资本结构,分散风险优化资本管理,能获得专业的服务和配套支持等优点,S公司的
学位
随着互联网资源的爆炸式增长,如何从大规模无规则数据中提取所需关键信息成为亟待解决的问题。关系抽取任务能够从非结构化的数据中抽取得到满足用户需求的结构化数据,其主要是从文本中抽取由头实体、关系和尾实体构成的关系三元组,从而对知识进行直观描述。关系抽取是知识图谱、智能问答和文本摘要等任务的基石,具有良好的发展前景。随着深度学习方法的不断应用,关系抽取取得了一定的进展,但其仍然存在关系重叠和F1值不够高
学位
地表温度(Land Surface Temperature,LST)在环境生态和气候系统的研究中至关重要。因为卫星载荷量和传感器技术所限,很难获取高时间分辨率和空间分辨率的热红外遥感数据。空间降尺度是目前广泛使用的用于解决该问题的方法。空间降尺度方法在假设尺度不变性的前提下,使用合理的回归模型来建立LST和尺度因子之间的统计关系,并结合低空间分辨率LST和具有高空间分辨率的尺度因子来提高温度图像的
学位
近年来,中国城镇化与工业化的迅速发展,给环境带来了巨大的破坏,随之产生的空气污染问题已经严重影响人们的日常生活与身体健康。因此,针对空气污染问题采取合理的预防和治理措施是现阶段重要的工作。准确预测细颗粒物(Fine Particulate Matter,PM2.5)的变化规律,可以为预防和治理空气污染问题提供理论支撑,从而实现空气污染的有效预防与治理。然而随着物联网技术迅速发展,传统PM2.5预测
学位
随着商品信息、新闻资料和多媒体服务等数据的增长,用户从海量数据中挑选所需信息的难度大幅度增加。推荐领域研究者尝试引入用户-项目属性、用户-社交信息以及知识图谱等辅助信息挖掘用户潜在兴趣偏好从而增强推荐效果。利用知识图谱辅助推荐的算法存在忽略节点位置结构信息、特定兴趣路径难以设计、携带大量非推荐相关数据等问题。因此,本研究创建电影领域知识图谱并将该图谱作为推荐算法的辅助信息,在此基础上提出了面向电影
学位
科技发展推动着人类社会的进步,而计算机的产生极大程度地便利了人们的生活。物联网设备从最初的工业使用,截止目前已经走进普通大众的家庭,例如,智能手机、智能家居等等。当越来越多的物联网设备被连接到远程计算机时,一些别有用心之人就想通过截取物联网设备的信息并从中牟取暴利,所以其安全问题也引起了越来越多的学者关注。跨平台病毒是一种在物联网设备和计算机之间传播的网络病毒。近代以来,跨平台病毒不断发展,版本更
学位