基于情感词向量优化的微博评论情感分析

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lihai3120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博这类社交平台不断地壮大发展,基于微博语料的分析技术也备受学术界的关注,其中,情感分析技术更是成为其热门研究领域。在情感分析任务中,基于语料库上下文信息训练的词向量并不能很好地区分语境相同但语义不同的词汇,这会导致“语义相反的词,具有相似度高的词向量”,从而降低情感分析的精度。本文主要研究中文微博的情感分析,为了缓解上述问题对情感分析任务的影响,本文重点研究了情感词向量的优化,提出了一种结合情感词典的情感词向量优化模型。此外,情感词典是自然语言处理领域至关重要的研究工具,对它构建的研究有着重要的意义。本文由于需要使用带情感强度标注的情感词典,所以对其构建方法进行了研究,提出了一种融合SO-PMI算法、HowNet词汇相似度和词向量相似度的情感词典构建方法,并将其运用到本文提出的情感词向量优化模型中。本文所做的主要工作如下:(1)考虑到本文需要用到有情感强度等级标注的情感词典,我们在现有的研究基础上,提出了一种情感词典构建方法。该方法融合了SO-PMI算法、HowNet词汇相似度和词向量相似度,弥补了以上方法的缺点,能半监督地构建带有情感强度等级划分的情感词典。通过实验证明,我们的情感词典构建方法优于传统的SO-PMI算法和同样结合HowNet的改进方法,并且,它提供的情感强度等级可以为人工的情感强度等级划分提供参考。(2)为了在一定程度上解决情感分析任务中,部分情感词向量存在的“语义相反,但词向量相似度高”的这一问题,本文首先讨论了上述问题的成因和词向量被调整后的改变和影响,然后在现有的方法上得到启发,提出了一种情感词向量的调整优化方法。该方法结合情感词典并基于词向量相似度判断,选择一个情感词向量为起点进行优化调整,通过在一定的相似度范围内,交换情感词的向量表示,让情感词被交换到更适合其存在的位置。这样,使得相反含义的情感词向量相互远离、相同含义的情感词向量按强度相互靠近。然后,通过广度优先搜索慢慢扩大优化范围,最后完成对情感词向量的优化。(3)我们将优化后的词向量用于微博评论的情感分析模型训练,分别尝试运用到基于CNN模型和基于Bi-LSTM模型的情感分析上,进行实验分析对比。实验结果表明,与采用优化前的原始词向量的情感分析模型相比,采用本文提出的优化词向量的情感分析模型,无论是整体的准确率,还是积极和消极情感极性的F1值都有一定的提升,从而验证了我们的优化词向量的有效性。
其他文献
为提升少数民族青年整体素质,新疆维吾尔自治区阿克苏、和田等地区启动了"两后生"整建制免费教育培训和就业工程。越来越多的少数民族学生进入职业学校。由于这一群体的特殊
<正>2017年5月13日,带着对山区边远村庄贫困群众生活及健康的牵挂,农工党中央副主席龚建明率调研组一行,赶赴重庆市丰都县乡村,开展健康扶贫跟踪调研。农工党重庆市委会主委
期刊
随着近几年全国高校连续扩招,招生人数急剧增加。这表明我国高等教育已经进入大众化发展阶段。但这种持续扩招也引起了社会上和教育界不少人士对教育质量和毕业生就业问题的担
鉴于SAR(syntheticapertureradar)与可见光图像的成像机理存在很大差别,使得其同名特征的提取和配准十分困难,但在某些情况下,这两类图像的边缘存在一定的相关性。提出一种基于边
目的:探讨胰岛素增敏剂罗格列酮对胰岛素抵抗大鼠骨骼肌蛋白激酶B(PKB)表达的影响.方法:应用高脂饲料喂养复制胰岛素抵抗大鼠模型.应用Western blotting方法检测骨骼肌中PKB
随着现代经济的飞速发展,集团企业的大量涌现,集团企业通过编制合并报表,从整体上反映合并主体的财务状况和经营成果。但合并报表也掩盖了企业内部各分部面临不同的机会和风险,使
目的探讨12例断腕再植围手术期的护理、病情观察要点及康复锻炼指导。方法选择2008年5月-2012年8月在我院行断腕再植术患者12例,总结围手术期的护理及康复锻炼要点。结果12例
油菜是进贤县种植面积仅次于水稻的第2大作物,在全县农业生产中具有举足轻重的地位。油菜生产已成为我县农业生产中的支柱产业和农村经济新的增长点。双低油菜以其芥酸硫甙含
目的 探讨不同浓度(1%,2%,3%)七氟烷对成年大鼠的认知功能及血清、海马组织中神经元特异性烯醇化酶(NSE)的影响。方法 将40只成年雄性SD大鼠随机分为1%七氟烷组、2%七氟烷组、3%七