面向文本情感分析的主题建模及应用研究

来源 :山西大学 | 被引量 : 6次 | 上传用户:vvx888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通讯和计算机技术的飞速发展,互联网应用不断深入社会的各个方面,文本作为人们直接表达情感和观点的载体,在网络数据中占据较大比重。如何分析和挖掘这些富含情感的文本数据,近年来一直是学术界和产业界共同关注的热点。文本表示在情感挖掘和分析任务中至关重要,其性能会直接影响文本情感分析的效果。主题建模作为一种主流的文本建模和表示方法,在文本情感分析中被广泛使用。它可以利用词语在文本中的关联关系,将具有相关性和相似性的内容抽取为主题,构成主题概念表示空间。然而,在主题建模过程中,一般将文本情感内容与其它内容的地位平等处理,并没有凸显文本中包含的情感语义。此外,经典主题建模没有考虑文本序列、词语上下文等语义关系模式,在文本表示能力方面也具有一定的局限性。针对主题建模优势与不足,本文从文本情感分析任务的实际需求出发,充分利用深度学习与领域知识,扩展主题表示所涵盖的情感语义,增强主题对情感语义的表现形式和能力,拓展了主题表示在情感分析任务中的使用方式,形成了一种主题建模与任务目标相适应的文本情感分析模式。本文主要研究内容和取得成果如下:(1)基于特定任务知识主题建模的情感分析。在文本情感分析时,存在垃圾观点表述与正常情感表达难以区分的问题,将直接干扰情感分析的性能。为此,本文提出了增强主题表示的垃圾观点识别方法。该方法结合已有情感词典资源,设计了五种垃圾观点启发式规则知识,并将其引入主题建模过程中,用于增强主题表示。通过对垃圾观点的识别,证明了启发式规则与主题建模结合构造的文本表示,能够将几类文本垃圾观点与有效评论文本内容区分,提高了有效评论和垃圾评论的分类性能,同时,也为文本情感分析提供优良的数据资源。(2)集成多文本表示策略的情感分析。数据资源是文本情感分类的基础,当目标语言的标注数据缺乏时,其他语言的标注数据可以提供有力支持,这涉及到多语言情感分析任务。然而,不同语言的表示特征差异较大,如何将特征语义对齐成为该研究的关键问题。为此,本文以跨语言文本主题表示和传统向量空间文本表示为基础,结合两种表示的优势,设计了主题表示和向量空间文本表示的融合策略,将其用于构建跨语言情感倾向判别框架。通过实验,我们验证了情感倾向特征分布具有分散和聚集效应,且跨语言主题表示可以有效平衡情感特征差异、缓解数据稀疏性,而实验结果也达到了预期效果。(3)基于主题度量的半监督情感分析。当文本情感分析的标注数据不足时,可以借助大量未标注数据,这就涉及到半监督学习框架,其核心技术为样本内容主题度量。本文构建了两种不同功能的样本内容度量,并将这些度量融入到半监督学习框架中,形成基于主题度量的半监督情感分类方法。我们将这一方法用于跨语言情感分类任务,并设计了对齐翻译主题模型,构造了文本主题表示。实验结果表明,跨语言任务分类性能取得显著提高,同时,也证明了基于主题度量的半监督情感分类方法的有效性。(4)融合向量表示主题建模的情感分析。情感语义是人们感受和思维活动的综合体现,其在文本中具有多重形式和角度的表达方式,如词语上下文关联、文本主题等,而且不同表达方式刻画的情感内容的侧重点也存在差异。因此,仅依靠文本主题关系,并不足以全面地反映情感语义的全部内容,还应该在主题表示中融入其它表达方式刻画的情感语义。本文提出了一种文本表示模型的信息融合方法,并利用该方法设计了向量增强主题模型,用于将词向量反映的词语语义信息引入到主题表示中。实验结果表明,引入词向量语义后,主题表示可以有效地聚类文本中具有不同语法、语义功能的词语,并将它们划归到相应主题中,提高了主题表示对情感语义的刻画能力。此外,利用向量增强主题模型,还设计了样本主题相似性度量,实验结果表明,该度量在复杂文本聚类任务中具有较好的性能。(5)主题建模在情感分析系统中的功能设计。面向网络服务的分布式系统设计框架,我们将本文提出的主题建模以及情感分析方法设计为组件,按照业务逻辑将各组件添加到系统框架中,实现了一个在线文本情感分析的原型系统。本文详细说明了原型系统的框架设计、功能组织等细节,并以实际产品评论为示例,展示了数据分析结果。
其他文献
造血生长因子是一种蛋白质,属多肽类,是人类细胞生命的物质基础.其作用:①调节造血细胞增殖、发育、分化及增强细胞功能.②调节机体免疫应答,刺激免疫细胞增殖与分化.正常情
阿司匹林(aspirin,acetylsalicylic acid,ASA)应用于临床已有100余年的历史,最初主要用于疼痛或炎症的治疗,自20世纪70年代因发现其具有显著的抗血小板聚集作用而被广泛用于
近年研究表明,微卫星不稳定性和杂合性缺失与肺癌的发生、发展密切相关,是肺癌发生、发展的又一可能机制,微卫星异常的检测也有助于肺癌的早期诊断.
直升机医疗救援广泛应用于世界各国的军事行动、自然灾害和突发公共事件的伤员救治。通过分析我军空运后送医疗体系的特点,探讨构建模拟环境下的直升机空运后送系统及其在卫勤
社会化押运,是指金融机构现钞押运由社会第三方(一般为商业化运营的保安押运公司)承担的一种押运模式.社会化押运是经济发展到一定阶段社会分工日趋细化的必然产物,在该种模
运用SWOT法分析县级医院与基层医疗机构四种协作模式的内部优势和劣势、外部面临的机遇和风险,根据发扬优势、抓住机遇、避免劣势,克服挑战的思路,提出县乡村医疗服务各协作
标准冠状动脉内支架置入术,要求用球囊预先扩张狭窄部位,使支架易于通过,再置入支架.近年来,临床医生开始采用直接支架置入术(direct stenting,DS),其特点是在支架置入前,不
重点概述了近年来柑橘花药培养、胚培养、胚乳培养、茎尖培养和原生质体培养的国内外研究概况,并对柑橘组织培养的现状、影响因素和研究中存在问题进行分析、讨论.
期刊