【摘 要】
:
随着社交网络的快速发展以及用户的广泛参与,网络中产生了日均千万级的文本数据,其中包含了大量公众对热点事件的观点与态度,以及用户对产品的体验等。对这些含有丰富情绪信息的文本数据进行挖掘与分析,识别、理解其中包含的情绪信息,具有很高的社会价值与商业价值,引起了学术界和产业界众多研究者的广泛关注。网络文本具有口语化和不规范化的特点,这使得情绪分析工作面临很多挑战。在词嵌入表示方面,现有模型大多采用Wor
论文部分内容阅读
随着社交网络的快速发展以及用户的广泛参与,网络中产生了日均千万级的文本数据,其中包含了大量公众对热点事件的观点与态度,以及用户对产品的体验等。对这些含有丰富情绪信息的文本数据进行挖掘与分析,识别、理解其中包含的情绪信息,具有很高的社会价值与商业价值,引起了学术界和产业界众多研究者的广泛关注。网络文本具有口语化和不规范化的特点,这使得情绪分析工作面临很多挑战。在词嵌入表示方面,现有模型大多采用Word2Vec、GloVe等预训练语言模型得到静态词向量,无法根据具体语境动态地调整词向量以解决一词多义的问题。在文本特征提取方面,CNN、Bi-LSTM等神经网络模型虽然能够提取局部语义特征和全局语义特征,但无法学习到句子的句法特征。此外,情绪类别标签在情绪分类中具有重要作用,但多数分类模型仅仅是将类别标签符号化,类别标签的语义信息并未被充分利用。为此,本文针对基于深度学习的文本情绪分析方法展开深入研究,主要工作分为以下两个方面:(1)提出了基于ON-LSTM和注意力机制的文本特征提取方法。首先采用BERT预训练语言模型对情绪文本进行动态词向量表示,其次通过引入有序神经元长短时记忆网络对情绪文本进行编码,在学习文本语义信息的同时,无监督地学习文本的句法结构信息,从而得到更全面深层的文本特征表示,进而利用注意力机制更多地关注文本中与情绪相关的信息,来完成情绪文本的特征提取。在公开评测的数据集上进行了同类对比实验,结果表明该文本特征提取方法能够在一定程度上提升情绪分析的效果。(2)提出了基于ON-LSTM和标签语义的情绪分析模型(Emotin Analysis Model based on ON-LSTM and Label Semantic,ON-LSTM-LS)。基于情绪类别标签具有语义信息且能够指导情绪分析的特点,本文将文本情绪特征与标签语义特征相结合,共同参与情绪分析。文本情绪特征采用三层ON-LSTM网络进行提取。关于类别标签语义特征的获取,本文采用两种途径:第一种是使用预训练的BERT获得标签词的词嵌入表示;第二种则是利用基于Bi-LSTM和注意力机制的标签语义扩充方法,通过引入标签语义扩充文本,并对其进行类别标签相关的特征提取,作为标签语义的一种补充,丰富标签语义信息。在中文微博情绪分析数据集上进行消融实验及同类模型对比实验,结果表明融入了标签语义信息的情绪分析模型ON-LSTM-LS能够进一步有效地提升情绪分析的效果。本文针对网络社交文本,以有序神经元长短时记忆网络和注意力机制为基础,融入情绪类别标签的语义信息,构建情绪分析模型ON-LSTM-LS,提升了文本情绪分析的性能。
其他文献
由于钢丝绳在发生疲劳断裂时前兆特征不明显,在工程应用中存在一定隐患。为保证钢丝绳在使用过程中的安全性和可靠性,对其疲劳失效过程进行分析研究,并探寻一种科学合理的钢丝绳寿命预测方法,具有重要的理论价值和实际意义。本文以6×31WS+FC钢丝绳为研究对象,对其受载时的力学特性进行了分析计算。在此基础上对场强法进行了改进,利用改进场强法预测了钢丝绳的疲劳寿命,并通过了相关试验对其寿命预测能力进行了验证和
续随子(Euphorbia lathyris L.)是一种新型的且具有发展潜力的优良能源油料植物,种子中油脂积累达60%,其油分中有30%-40%的化合物类似于石油中的碳氢化合物,是制备生物柴油的优质原料,且油中的脂肪酸以C16和C18为主,尤其是单不饱和油酸含量高达83%。二酰甘油酰基转移酶2(Diacylglycerol Acyltransferase 2,DGAT2)催化二酰甘油(DAG)形
华北落叶松是华北地区近几十年造林和荒山绿化的主要树种之一,研究不同坡向和海拔带上树木径向生长与区域气候的响应模式和机制,有助于揭示立地因子的差异性导致树木径向生长变化的内在机理。本研究在关帝山林区孝文林场和庞泉沟国家自然保护区外围4个不同海拔和2个不同坡向的华北落叶松人工林样地内采集标准木样芯,采用树木年轮生态学方法获取胸高断面积生长量(BAI)和年轮宽度指数(RWI)两个径向生长指标,分别将样木
图像的无损压缩广泛应用在对图像细节要求较高的领域。Context建模技术作为一种非常有效的估计信源概率模型的方法,常常用于对图像序列建模。但对于高阶Context模型而言,其模型中概率分布较多,且用于统计模型的信源序列有限,便不能充分训练模型中的所有概率分布,故而引起“上下文稀释”问题。而使用Context模型对多进制信源建模相较于对二进制信源建模而言,针对多进制信源的Context模型中会产生更
随着工业的发展和城市的扩张,用电需求日益增长,对电缆的输电能力的要求越来越高,高温超导电缆(HTS)的应用有望成为一条有效的解决途径。近年来,高温超导线材的生产工艺不断成熟,低温支撑技术也更加可靠和低成本,HTS的实际应用越来越具备条件。高温HTS通常需要浸泡在低温流体中保证工作温度。液氮温度正好处于HTS工作温区,并且成本较低,使用安全,是现阶段HTS内冷却流体的不二之选。波纹管具有良好的柔韧性
2004年,石墨烯的成功制备掀起了人们对二维纳米材料的广泛关注。大量研究发现二维纳米材料具有很多优异的电学性质和磁学性质,被预言可以应用于太阳能电池、集成电路及自旋器件等光电子领域和纳米器件领域。近几年来,随着人们的深入研究,二维纳米材料更多更优异的物理化学性质被人们所证实,其中以类石墨烯六角蜂窝结构为代表的二维纳米材料尤其引人注目,它们在理论和实验上已经获得了丰硕成果。对类石墨烯结构纳米材料的研
随着高速信息技术(如5G)的迅猛发展,我们逐渐进入人工智能时代,各种通信技术在不断升级和提速扩容,直接推动了传感技术的进步。智能时代依赖众多传感器将万物互联并形成下一代网络----物联网,从而将深刻改变人们的生活和思维方式。光波导传感器属于众多传感器中的一种,具有其独特的优势,是光网络中必备的传感器。本文将主要研究平面多层光波导气体传感器及其检测气体的灵敏度,通过研究为后续实际应用的可行性做准备。
粗糙集理论是处理不精确性和不确定性问题的一种工具,其从单粒度的角度描述目标概念,具有一定的局限性。而多粒度粗糙集通过多个二元关系从多个粒度来分析问题,能够处理更为复杂的信息系统。此外,基于双量化方法的粗糙集自提出以来,由于其综合考虑了相对和绝对量化信息,能够提高近似分类精度,在不确定性决策问题中受到了广泛的关注。三支决策理论对粗糙集中的粗糙域提供了合理的语义解释,并同时考虑了决策风险,使之成为不确
生物医学文本领域每年产生大量的文献、病例,这些材料中往往包含重要信息,但依赖人工处理不仅工作量巨大,并且难以保证效率。近年来,随着自然语言处理的不断发展,深度学习已经取代传统统计学方法,逐渐成为各领域的主流方法。利用深度学习技术对生物医学文本进行信息提取,一方面可以有效提高提取效率,另一方面,深度学习强大的特征学习能力能捕捉更多人工难以识别的特征,提高识别精度,强化提取能力。这对于生物医学领域发展
人们对于更大的硬盘驱动器的存储容量的日益增长的需求,推动了人们对这方面的关注和广泛的研究。在上个世纪末研究者发现了巨磁阻(GMR)效应,几年后就研究得到基于氧化铝的磁性隧道结(MTJ)。MTJ是一种不同于其它类型的磁性存储器,它是自旋电子学领域的有研究前景的纳米结构器件。MTJ具有很高的隧道磁阻(TMR)效应,体现在存储容量、速度和稳定性方面有很大的优势,另外由于是纳米器件,它的尺寸会比之前的存储