【摘 要】
:
用户在网络中进行互动时会采用多种多样的方式来表达自己的情感和态度,其中以文本评论为主。对文本评论进行情感分析,可以为企业提供有价值的情感信息。早期的文本情感分析主要采用情感词典方法和传统的浅层机器学习方法。随着文本数据的快速增长,用户表达情感的方式越来越丰富,使用传统的文本情感分析方法需要付出较高的人力成本,却很难达到较高的准确率,且泛化能力较差。近年来,利用深度学习技术进行文本情感分析得到快速发
论文部分内容阅读
用户在网络中进行互动时会采用多种多样的方式来表达自己的情感和态度,其中以文本评论为主。对文本评论进行情感分析,可以为企业提供有价值的情感信息。早期的文本情感分析主要采用情感词典方法和传统的浅层机器学习方法。随着文本数据的快速增长,用户表达情感的方式越来越丰富,使用传统的文本情感分析方法需要付出较高的人力成本,却很难达到较高的准确率,且泛化能力较差。近年来,利用深度学习技术进行文本情感分析得到快速发展,但仍然存在一些挑战和问题。普通的深度学习网络在处理稀疏特征时无法识别更重要的部分,同时文本用单一词向量表示也存在局限性。本文针对上述问题开展研究,主要工作如下:(1)提出了结合自注意力机制的双向长短期记忆网络(SA-Bi LSTM)文本情感分析模型。普通的深度学习网络在处理稀疏特征时无法识别更重要的部分,而注意力机制可以快速的提取稀疏数据的重要特征;自注意力机制能够忽略词语之间的距离,直接计算词语之间的相互依存关系,捕获句子中的内部结构,减少注意力机制对外部信息的依赖。(2)提出了结合自注意力机制的双通道双向长短期记忆网络(DC-SA-Bi LSTM)文本情感分析模型。在采用单通道词向量作为输入的模型中,word2vec和glove对词向量的表示都存在局限性,双通道输入采用两种词向量模型对词语进行表示,可以优化输入模型的词向量信息,获取更多文本特征信息。(3)改进文本预处理。重新整合哈工大停用词表和百度停用词表,保留语气词和感叹词。由于论文实验数据集为酒店评论数据,本文采用了Pku Seg分词工具中旅游领域模型对中文文本进行分词。(4)将论文提出的模型与现有其它文本情感分析方法在文本情感分析的两个酒店评论数据集上进行了对比实验,由实验结果可知:本文的提出的模型在精准率、召回率和F1-score三个评估指标上相对于比较模型均有提高。证明了本文的改进方法实验效果比其它文本情感分析方法的实验效果更好。
其他文献
不确定性是人类认知过程中普遍存在的社会现象,随着智能信息处理技术的高速发展,标签部分缺失的不完备数据(即标签不完备数据)在现实生活中广泛存在。在标签不完备数据的分析与处理过程中,随着标签不完备程度的加深,欲捕捉到有效信息的不确定性显著增加,给数据的分析与处理带来了不少挑战。不确定性度量作为分析数据不确定性的一种有效工具,有助于揭露数据的内部结构和本质特性,为数据分析与处理提供新的研究策略。目前,现
近年来,溶解性有机质(dissolved organic matter,DOM)的研究还停留在表观上,对DOM组成结构仍缺乏深入的了解,此外沉积物DOM与重金属的相互作用的微观机制需要进一步研究。本文以湿地沉积物DOM与重金属为研究对象,通过室内干湿交替模拟实验,结合光谱、质谱和化学计量学等方法分析了干湿交替下湿地沉积物DOM的结构特征,揭示了湿地沉积物DOM组成对重金属赋存形态的影响,深入探讨了
随着我国社会经济水平的不断提高和发展,人口压力与日俱增,人们对于淡水鱼类的需求也日益增多。需求量的增大使得精养鱼池集约化养殖规模加大,养殖密度不断增加,也因此鱼类病害频繁爆发。为了防止鱼类病害的频繁发生,抗生素被大量使用,使得水产养殖生态环境遭到破坏,鱼类健康养殖受到更加广泛的威胁。目前对大部分鱼类病原致病机理的研究还不够深入,同时还迫切需要发现更安全环保且有效的鱼类病害防治措施。香鱼假单胞菌(P
随着当今社会科学技术的飞速进步,各种矛盾和问题也日渐显现,社会生态,环境保护,科技创新等各类综合性问题是无法运用某单一学科的知识内容,采取单一的方式来解决的,需要结合不同学科的知识,从多角度多方面进行研究,才能系统地解决问题。但是,目前我国中学阶段普遍实行分科教学,为了学生能够得到综合发展,教师应该在日常的教学活动中以本学科知识为中心,发散扩展进行多学科知识融合的跨学科教学。显然,教材是课程教学的
近年来,科学家成功地将量子理论和信息科学结合起来,于是“量子信息”作为一种新兴的学科分支便应运而生,而且已经成为当下的研究热点,并取得重要进展.本文运用了算子代数和矩阵论的方法对极大不相干量子运算,不相干量子运算,真正不相干量子运算以及完全不相干量子运算进行了探究.首先给出了极大不相干量子运算,不相干量子运算,真正不相干量子运算以及完全不相干量子运算的具体形式;然后得到了 一些与极大不相干量子运算
本文主要研究了因子von Neumann代数上的非线性混合ξ-Jordan三重可导映射和双局部Lie导子的问题.主要内容如下:第一章主要介绍了本文常用的符号,定义(非线性(斜)Jordan三重可导映射,可加*-导子,因子von Neumann代数)以及文中涉及的已知定理.第二章主要在因子von Neumann代数上研究了非线性混合ξ-Jordan三重可导映射.设A是复Hilbert空间H上的因子v
草鱼(Ctenopharyngodon idellus,2n=48)具有生长速度快、草食性以及易于养殖等优点,在我国淡水经济养殖中占有重要地位。近年来,连续的人工自交繁育导致草鱼种质资源明显退化,生长速度减慢,病害严重,因此积极开展草鱼种质资源创新和良种选育工作具有重大意义。以锦鲤(Cyprinus carpio haematopterus,2n=100)遗传灭活精子刺激草鱼卵子,通过温度休克处理
印刷电路板(PCB)是电子设备的关键组件,但其生产制造过程中受到多种因素的影响,容易导致缺陷的产生,使得PCB无法使用。自动光学检测技术是辅助生产人员进行缺陷检测的常用方法,已广泛用于PCB生产中。但是该方法定位出缺陷后仍需要人眼进行验证。这个过程人工成本较高,且效率较低。本文针对PCB缺陷检测技术展开研究,旨在实现一种基于深度学习的自动PCB缺陷检测方法,减少人工操作,提高生产效率。本文主要工作
水力侵蚀引起的土壤有机碳(soil organic carbon,SOC)动态变化对陆地、河流和海洋生态系统的碳循环有着巨大影响,但在区域尺度上侵蚀引起的SOC通量变化的影响因素还不够明确,针对水力侵蚀影响下区域SOC通量的估算方面还存在较大的不确定性。本研究以典型红壤丘陵区—江西省为研究对象,利用地形地貌、气象和土壤等数据,结合水土流失经验模型和土壤有机碳通量模型,定量估算江西省1995年到20
近年来,机器学习在线服务以其便捷实用的优点吸引了众多数据研究者的关注,改变了人们对机器学习模型搭建难成本高的固有认识。其数据驱动服务这一特性使得大量用户数据被应用于训练各种服务模型,其中不乏用户的敏感信息。然而不可信的机器学习云端服务并不能对在线用户的隐私信息提供有力的隐私保障,存在用户隐私信息恶意推理、模型反演攻击和成员推理攻击等隐私威胁,对在线用户和服务提供商造成严重的损害,因此保护机器学习模