基于多粒度特征表示的三支决策情感分析研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:cuidayue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技迅速发展的时代,人们青睐于在各类平台上发表观点,产生大量的评论文本如电影评论、产品评论等。针对这些评论信息进行情感分析,可以指引消费者购买商品和观影,协助他们快速地做出判断。此外,也为生产者带来改进意见,促进产品质量的提高。因此,对这些评论文本进行情感分析具有重要的意义和价值。评论文本不仅基数大,而且生成的特征表示维度高且存在信息冗余。特征选择能够过滤冗余信息,更有效地进行情感分析。然而,现有的基于特征选择的情感分析方法对所有评论数据进行特征选择,忽略不同类别的评论文本之间特征表示的差异性。除此之外,存在一些情感极性不明确的评论文本,给二分类情感分析带来阻碍。目前,三支决策理论是一种解决不确定性问题的热门方法,它将文本划分为三个域:积极域,消极域和不确定域。积极域和消极域包含情感极性明确的评论文本,情感极性不明确的评论文本构成不确定域。不确定域需要额外的信息进行二次划分。如何从确定域中获取足够的信息,处理不确定性数据是一个需要解决的问题。因此,针对上述问题,本文从不同类别的差异性以及评论数据集的不确定性出发,基于三支决策以及多粒度特征表示对二分类情感分析算法进行如下研究。本文的工作内容主要包括以下几个方面:(1)本文首先介绍情感分析研究的背景以及研究意义,接着调研目前进行情感分析的相关方法,以及情感分析中不确定性问题的处理方法;其次,介绍情感分析现有的特征表示方法及其不足之处,分析三支决策对于处理不确定性的优势;然后,基于三支决策的理论,介绍最小覆盖算法如何构建确定域和不确定域;接着,描述基于模糊商空间理论构建多粒度特征表示,为构建确定域上多粒度特征表示做根基;最后,介绍情感分析所采用的评价标准。(2)针对忽略不同类别特征表示之间的差异性,以及评论文本的不确定性,提出类别最优粒度特征表示的三支决策情感分析算法(CFRT)。首先通过模糊商空间理论(FQST)在积极域和消极域两个确定域上,分别得到m层和n层多粒度特征表示;接着,考虑积极域和消极域上特征表示的差异性,分别选取性能最好的作为最优粒度特征表示。结合三支决策的思想将测试集划分为积极域(POS)和消极域(NEG)以及不确定域(UNC)。其中POS区域和NEG区域采用积极域和消极域上的最优特征表示进行情感分析,对UNC区域使用原始特征表示进行情感分析。在IMDB和Amazon两个公开数据集上进行实验,结果表明,CFRT算法在二分类情感分析方面的性能显著提升。(3)针对CFRT算法最优粒度特征表示选择过程复杂度高且缺乏鲁棒性的缺点,提出多粒度特征融合表示的三支决策情感分析算法(RMFFR)。首先,利用基于三支决策理论的最小覆盖算法将评论数据划分为积极域,消极域和不确定域;接着,利用模糊商空间理论在确定区域内(积极域和消极域)得到多粒度特征表示,确定域上多粒度特征表示融合学习到鲁棒的全局特征表示;最后,利用确定域中得到的鲁棒特征表示对测试集中的不确定域进行二次划分,从而可以更好地进行二分类情感分析。在三个常用数据集(IMDB、Amazon、Yelp)上的实验结果表明,RMFFR算法具有鲁棒性且有效地提升二分类情感分析效果。
其他文献
伴随着城市化进程加快和交通智慧化管理的需求上升,智能交通在未来的市场空间巨大。车辆重识别作为智能交通的重要一环,在交通智能管理领域发挥着重要作用。基于单帧图像的车辆重识别和基于视频的车辆重识别是车辆重识别两个基础的任务分支。基于单帧图像的车辆重识别算法任务多是集中在小轿车、商务车等中小型车辆,对公交车、载货车等大型车辆的关注程度很低。相比较于视频,单帧图像能够提供的信息终究是有限的。此外,单帧图像
学位
多模态目标跟踪的提出是为了利用可见光和红外数据的互补优势来实现成对视频序列的目标定位任务。但是多模态的跟踪起源偏晚并且需要成对匹配的信息,而成对数据的获取受制于专业的成像设备和高昂的人工标注成本,现有数据集规模相比于可见光较小且数据多样性匮乏。此外,可见光-红外数据在不同的挑战下并非都同时发挥正面作用,如何充分利用两种模态的优点并同时抑制噪声成为急需解决的问题,受最近元学习研究的启发,本文基于元学
学位
特征选择是数据挖掘领域中一个重要的数据预处理手段,其目的是从数据的全部特征中选择出部分对学习模型(如分类算法)有用的特征,以此增强模型的效率和效果。特征选择有两个目标需要优化:一是提高学习模型的性能,二是降低特征数量,因此特征选择问题能天然地建模成多目标优化问题,而基于进化多目标优化的特征选择算法是目前的一个研究热点,由于其不需要关于搜索空间的先验知识和假设,且能在一次运行中产生一组权衡不同冲突目
学位
随着生活质量的不断提高,身体健康问题越来越受到人们的关注。有关身体健康状况的生命体征参数有心率(Heart Rate,HR)、呼吸率、血压和血氧饱和度等,其中,心率是较为重要的一项参数。心率的动态变化与潜在的心脏疾病息息相关,如果患者出现心率过速、过缓或心律不齐,都应该及时地就医、检查。因此,在日常生活中,针对心率的估计和实时监测能有效地预防和治疗心血管疾病。近年来,基于面部视频的心率检测方法的各
学位
稀疏多目标问题是指其Pareto最优解中多数决策变量为零的优化问题,此类问题在科学研究和实际应用中广泛存在,如稀疏信号重构、稀疏神经网络训练、复杂网络关键点探测等。进化算法是求解优化问题的一类重要方法,具有不依赖待求解问题的精确数学模型、鲁棒性强、易并行等优势,目前已成为解决稀疏多目标优化问题的主流方法。近年来,尽管已经出现了多种有效求解稀疏多目标优化问题的进化算法,然而在处理一些复杂稀疏多目标优
学位
随着软件开发难度的增加,现在的开发者越来越注重复用开源软件项目,以提高开发效率和软件质量。因此,开源软件项目的数量爆炸式增长在为开发者提供更多选择的同时也让他们面临着信息过载的挑战。虽然传统的推荐系统可以解决这一问题,但它们通常无法充分利用开源软件社区中特有的信息。一方面,开源软件社区中天然存在社交影响、依赖约束和开发者的动态兴趣这三种信息。在社会化协同编程的过程中,开发者的兴趣会动态变化,也会受
学位
软件架构定义了系统结构并决定其质量,确保软件架构的合理性和可维护性对后续开发至关重要。架构异味是软件技术债务的具体表现形式之一,表明系统中存在潜在的问题,它们在软件开发的过程中不断积累且反复出现,阻碍了软件的可维护性和可重用性。除了传统架构中会存在架构异味外,近年来广受关注的微服务架构也受到微服务架构异味的影响。目前,对传统架构异味的定义已比较明确,但对其进行检测的效率和覆盖范围还有待提升;另一方
学位
微服务的诸多优良特性,如可伸缩性、可维护性,促使更多的决策者选择将单体迁移到微服务。研究人员们也提出了多种微服务拆分方法。然而,如何在迁移过程中适当拆分微服务仍然是一个棘手的问题。首先,不同领域的单体迁移需求各不相同,如何选择合适的微服务拆分方法却很少受到关注。其次,当前的微服务拆分主要依赖于架构师或领域专家,这比较主观且耗时。而半自动化或自动化的微服务拆分方法仅能产生粗粒度的结果,并且受不同系统
学位
现实世界中存在着如电力、交通等各种各样的复杂系统,在这些系统中存在着形形色色的实体及实体间的关系。网络这一数据形式由于具有表达实体间关系的能力,被广泛的应用于复杂系统的建模。基于这些真实的系统,研究人员发展了网络科学理论并提出了一系列的相关问题。作为网络科学领域中的基础问题之一,网络拆解目的在于从网络中选择一组节点,使这些节点的移除可以显著削弱网络的连通性能。而网络的连通性对于结构鲁棒性、信息传播
学位
在各种推荐系统中,用户对项目的数值评分和文字评论是反馈其偏好的主要信息。然而,传统的仅借助用户的评分来进行推荐的模型,如协同过滤,在数据非常稀疏的场景下无法有效工作。当前的一些仅使用评论信息进行推荐的模型也会受到评论稀疏性的影响。一方面,大多数场景下用户给出评分和评论都是相互关联和互补的,评论可以解释为什么用户对这个项目给予高或低的评分。另一方面,评分和评论分别从粗粒度和细粒度两个层面反映了用户的
学位