【摘 要】
:
随着大数据时代的到来,互联网上充斥着大量的非结构化文本信息,文本分类及其情感分析方法旨在挖掘文本的类别和情感等属性知识,用以帮助人们充分利用这些信息资源,这也是当前研究者们所关注的热门问题之一。传统的机器学习方法通过人工构建特征进行文本分类和情感分析研究。但是,这些方法的效果过于依赖所构建特征的好坏,而随着数据的爆炸式增长,特征构造也会消耗大量的人力成本,且许多特征在新场景下难以复用。随着深度神经
论文部分内容阅读
随着大数据时代的到来,互联网上充斥着大量的非结构化文本信息,文本分类及其情感分析方法旨在挖掘文本的类别和情感等属性知识,用以帮助人们充分利用这些信息资源,这也是当前研究者们所关注的热门问题之一。传统的机器学习方法通过人工构建特征进行文本分类和情感分析研究。但是,这些方法的效果过于依赖所构建特征的好坏,而随着数据的爆炸式增长,特征构造也会消耗大量的人力成本,且许多特征在新场景下难以复用。随着深度神经网络的兴起与发展,许多研究利用深度学习方法构造数据特征并进行信息挖掘,由此大大提高了文本分类和情感分析的效率。然而,基于深度学习的文本分类及其情感分析方法仍然存在一些挑战:首先,许多文本分类方法聚焦于对文本自身信息的挖掘,或者利用句子维度及词维度上标签信息对文本信息进行补充,而缺乏对特征维度上标签信息的关注;其次,当前大多数基于自注意力结构的情感分析方法仅关注词序等语义信息,而忽略了句法结构和语义信息的相互作用以及依存句法下不同词之间的相互影响。为了解决以上问题,本文在已有工作的基础上对注意力机制进行改进,具体研究工作如下:(1)提出了基于特征注意力和标签概率学习的文本分类模型FA-LPL。该模型由特征注意力网络和标签概率学习两部分构成,前者基于特征注意力机制充分挖掘出与标签相关的文本关键特征,并以此生成具有特征信息交互的文本向量和标签向量;后者受知识蒸馏思想的启发,使用由特征注意力网络学习的标签向量对交互样本的真实概率分布进行模拟。FA-LPL模型通过特征注意力网络和标签概率学习,既可以挖掘出文本中与标签相关的关键特征,也可以学习到标签间的相似信息。同时,在公开数据集上的实验验证了 FA-LPL模型在文本分类任务上的有效性,也显示了模型在处理相似标签区分及噪声对抗等问题上的优越性。(2)提出了基于种间竞争和多位置掩码注意力的情感分析模型IC-MLMA。该模型由句法结构注意力网络和语义信息注意力网络构成,前者使用种间竞争建模依存句法中从属词和修饰词相互影响、相互竞争语义表达主导地位的过程,描述句法的依存关系;后者使用多种不同的位置掩码注意力分别学习句子中单词顺序和相对位置等语义信息。IC-MLMA模型使用联合学习框架让二者产生交互,通过句法结构限制句子的语义表达,并根据语义表达判断句法结构的合理性,获得能同时包含句法结构和语义信息的文本向量表示。实验表明,IC-MLMA模型在情感分析任务的多个公开数据集上均取得了性能提升,模型的有效性得到了验证。
其他文献
合并报表准则在顺应时代发展中逐渐由母公司理论转向实体理论,但与子公司超额亏损相关的合并层面会计处理在准则转向的过程中,却出现了新的问题被媒体频繁报道:“*ST南化2018年营收2.75亿元,转回子公司超额亏损后扭亏为盈”、“*ST宇顺1元‘甩卖’长沙触控,实现扭亏保壳”、“*ST东网2019年剥离亏损子公司扭亏为盈”,即一些上市公司利用处置超额亏损的子公司获取巨额收益,实现合并净利润从亏损变为盈利
在瞬息万变的信息时代的影响下,人们如今的生活方式已经发生了深刻的变化。随着电子产品的不断普及,无论是学习工作、社交聊天,还是通勤出差,人们都离不开各种网页和APP,这使得在这种情况下应运而生的设计领域新分支——“UI设计(用户界面设计)”得以迅猛发展。基础教育阶段的美术教育也受到了这种契机的影响,图像识读、创意实践等早已成为21世纪创新型人才所必备的美术核心素养。所以,学校教育应该教会学生如何理解
随着数字存储、计算机技术和全球网络的快速发展,数字图像可以很容易地移动存储,可以在一秒钟内传送到世界的任何地方。这种便利可能会被未经授权的用户利用,从而迅速传播图像信息,给图像拥有者造成无法估量的损失。图像安全的问题已经到了不容忽视的情况。本文在研究一维混沌系统的基础上,提出了一个新的混沌系统,并基于此混沌系统设计出了有效的加密方案,具体内容如下:(1)首先提出了一种新的二维Sine-Tent超混
说起应用题,我们都很熟悉,也都知道它很重要,它在初中数学教学中处于关键位置。应用能力也是初中数学教学的一个重要的目的。然而在现实的应用题教与学的环境中,我们能够看到很多学生都会在解题过程中由于审题不认真而使自己解题出现问题,并且在这个过程中学生的自信心也逐渐丧失,所以如果我们在实际的教学过程中,重视应用题审题的话,学生的正确率肯定会提高,自信心也会增强。笔者在研究中首先用文献法来进行研究,笔者首先
试验是人们认识世界的重要方法,在社会生产和科学研究中都发挥着不可替代的作用.在试验设计中,均匀设计作为一种稳健的空间填充设计方法,追求将所有试验点均匀散布到整个试验区域,以获得最好的空间代表性,因此自提出以来在传统物理试验以及计算机试验中都得到了广泛的应用.为度量试验点在试验区域内的均匀性,许多均匀性测度被提出,其中最为常用的是由广义星偏差改良而来的广义L2-偏差,按照具体定义方式的不同,广义L2
我国在《中国教育现代化2035》中指出“要加强创新人才特别是拔尖创新人才的培养,加大应用型、复合型、技术技能型人才培养比重”.这也给中国的人才培养指明了发展方向.在这样的时代背景下,社会提倡多元化发展,学生需要从单一学科的学习转变为跨学科学习成为未来教育发展的主流方向,而STEAM教育能够将众多学科整合到一起,重视学生综合实践能力培养的特点与我国现阶段人才培养需求不谋而合.基于以上时代背景,STE
随着全球对疫苗需求的增加与生物技术水平的不断提升,疫苗已成为推动全球医药市场发展不可或缺的力量,是人类自我保护的重要基础。然而,目前现有的疫苗供应管理大多是以中央机构(CA)的集中方式建立,这种方法在网络中的通信与存储方面会产生大量的开销。同时,在疫苗供应管理中,疫苗数据的真实性、完整性、隐私性等问题依然普遍存在。因此研究一种去中心化监管、数据不可篡改或伪造的疫苗供应管理溯源方案是至关重要的。针对
高炉冶炼在钢铁行业中占有举足轻重的地位,其正常运转直接关系到整个钢铁生产过程的健康发展。文章通过对高炉常见的故障和解决方法的研究,对目前的故障诊断状况进行了分析,并建立了故障诊断系统,并对故障处理给出了建议。
单细胞RNA测序技术在最近几年迅速发展,成为生命科学研究的焦点。如今,单细胞测序技术一次能测量成千上万个基因的表达量。然而因技术限制,在测量基因表达量之前,组织细胞需被解离成单个细胞,使得数据丢失了细胞的空间位置信息。随着科技的发展,新的空间转录组测序技术被提出。空间转录组测序技术能够测量细胞的基因表达量,同时保留细胞的空间位置信息。然而空间转录组测序技术一次只能测量几十到几百的基因,或者测序灵敏
空间转录测序技术不仅可以获得细胞中基因表达计数矩阵,同时保留组织内细胞的空间坐标,有助于阐明细胞环境和基因表达之间的相互作用。利用细胞的空间位置信息探索基因的空间表达模式,寻找不同表达模式下的基因生物学功能有无差异,是研究复杂组织的空间转录现象的第一步。虽然已经有很多学者提出了寻找具有空间表达模式基因的算法,但是一方面大规模空间转录数据是稀疏计数形式存储,在参数建模方面仍然具有挑战性,会引起算法稳