基于神经网络的融合多特征酒店评论分类算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:zj280078064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及使在线评论成为人们可获取的有价值的信息资源,随着电子商务的发展,商品评论信息数量激增,这些评论中存在一些故意编造或者没有参考价值的垃圾评论。检测垃圾评论的传统研究大都基于评论文本本身进行,这种做法没有综合考虑评论者特征导致识别准确率较低,因此本文提出一种融入全局-局部注意力机制,基于神经网络的融合多特征的垃圾评论识别方法。本文使用Yelp酒店评论数据集进行实验,提出的模型融合评论文本特征和评论者特征进行垃圾评论识别,达到将垃圾评论与真实评论有效分类的目的。首先,对于评论文本进行文本表示,由于传统的词嵌入方式存在一词多义问题导致无法获取文本准确的语义信息,本文使用BERT预训练语言模型,该模型的训练中包含了文本的位置和序列信息,使用双向Transformer编码器获取文本的语义特征,通过训练得到评论文本的表示矩阵。然后对于上一步获得的矩阵,为了忽略文本中的噪音与不相关的词汇,获取哪些词在全局范围内更具有信息性,捕获文本的全局特征,利用全局注意力机制为词赋予相应的权重,全局注意力机制在计算每一步上下文向量时,需要考虑编码器所有位置的状态量,考虑编码器每一个隐藏状态,得到文本在全局注意力上的特征表示矩阵;为了获取局部范围内哪些词更具有信息性,利用局部注意力机制为词赋予相应的权重,与全局注意力机制不同的是,这里需要利用一个上下文窗口,当该词在窗口的中间位置时,只考虑前后一定范围内的隐藏状态,注意力值越高代表该词具有越高的信息性,这样得到文本在局部注意力上的特征表示矩阵;将这两个矩阵分别利用三种不同尺寸的卷积核提取特征,再使用最大池化策略缩减矩阵,获取文本表示中最显著的特征,这样获得了两个新的矩阵。对于评论者特征,将其组成一维向量,再进行归一化操作,之后经过三个全连接层,然后将其与上一步获得的两个特征表示矩阵在同一个维度上连结,构成一个融合多特征的新向量,再经过三个全连接层,最后一个全连接层使用Sigmoid激活函数完成最终的分类任务。本文模型将评论文本和评论者特征融合,综合考虑二者对垃圾评论识别的影响,在文本训练方面使用BERT预训练语言模型获取文本更加准确的文本表示,并利用全局-局部注意力机制区分词的重要程度。通过在Yelp酒店评论数据集上与传统的卷积神经网络模型和一些较新的模型对比,本文模型垃圾识别性能有一定的提升,准确率、精确率、召回率和F1值分别达到了90.24%、90.54%、89.16%和89.84%,并进行消融实验,实验结果符合预期,证明了本文模型设计的有效性。
其他文献
现在市场中的企业都不是孤立运营的,而是处于整个供应链上,所以对于核心企业来说,供应链上的供应商的配合程度在日常业务运营方面很重要。在供应商管理整个流程中,供应商的选择是很重要的一环,直接决定了合作供应商的质量以及后续的合作关系,也是现在市场竞争中的重点,但是,现在公司在供应商选择的过程中还存在很多的问题。基于此,本文以A公司为研究对象,对供应商的选择进行优化研究,主要的研究内容如下:(1)现状分析
学位
针对阿尔兹海默症的计算机辅助诊断近年来得到了极大的发展,但是已有的大多数该类研究都是使用监督学习的方法来展开的。但医学图像的标注需要标注者具有对应的医学知识,从而导致带标签的医学图像数据比较稀缺,进而影响了该领域研究的进展。虽然该方面的带标签数据较少,但是在实际中有大量的无标签数据由于没有标签而没有被有效利用。因此,如何使用这些无标签数据去提高阿尔兹海默症病灶分割和分类的性能是本文拟解决的问题。同
学位
电子医疗数据是患者生理/心理的病情记录,亦或是人体日常健康监测数据,在疾病治疗与病理研究中充当着相当重要的角色;同时,作为隐私数据,如何实现其安全共享成为研究的热点。目前,医疗数据主要以中心化存储的形式,通过公有云或私有云集中存储在医疗机构服务器中。在此主流方式下,医疗数据共享系统一旦遭受攻击可能导致单点故障,患者无法对自身医疗隐私数据进行访问控制,更无法对分散的医疗数据进行安全共享。因此,本文立
学位
随着医学信息化程度不断增加,产生了大量的医学文本数据,通过信息挖掘与分析,从非结构化的数据中抽取三元组成为重要的研究方向。传统的中文医学文本的实体关系抽取方法存在词组分割歧义、信息缺失和关系重叠等问题,本文通过词组信息嵌入和指针标注框架,融合自注意力机制,提出一个融合词汇增强的基于注意力机制的指针标注模型,以此来解决中文医学文本关系抽取中存在的问题,提升关系抽取的性能。本文的主要研究内容如下:在嵌
学位
随着全球贸易化的不断深入,汽贸企业面临着诸多新局面和新问题,一方面,是愈演愈烈的中美贸易战以及欧洲多国的“双反”政策,导致汽贸企业面临的市场环境愈加严峻。另一方面,“构建国内大循环为主体、国内外双循环、国内外双循环相互促进的发展新格局”的重大战略部署,也为汽车贸易企业的发展带来了良好机遇。作为国内汽车贸易行业的领头羊,庞大汽车贸易集团如何在诸多机遇和风险面前突破自身局限,有效实现企业发展的战略目标
学位
经典的推荐系统着重于推荐的准确性,随着用户多样化需求的增加,推荐结果的多样性受到越来越多的关注。推荐的精度与多样性存在冲突,传统的推荐算法往往也忽略系统中的用户活跃度差异。因此,本文从数据分布的特点着手,提出面向不同用户的层次化推荐模型,该模型以快速非支配排序遗传算法NSGA-II(Fast Non-dominated Sorting Genetic Algorithm)为多目标进化算法载体,以推
学位
充气膜作为一种自重轻、透光性好、外形美观的结构形式,近年来被广泛运用于水立方等大跨结构,以及航空航天可展开结构中。气枕结构是充气膜结构的一种,气枕结构由内充气体和外部膜材组合而成,内充气体为气枕提供结构刚度,因此如何考虑气枕的内充气体,对气枕的力学性能有着重要的影响;外部膜材是为气枕提供预应力并维持气枕构形的主要构件,由于薄膜的抗弯刚度较小,受到压应力作用会发生局部屈曲,产生褶皱变形,影响气枕结构
学位
基于目标的情感分析是一种细粒度的情感分析研究,是自然语言处理领域的热门方向。研究目的在于从海量互联网文本中挖掘出细粒度元素,产品、服务、事件等目标及其观点和情感,包括目标提取、意见提取、特定目标的情感分析三个子任务。只解决其中一个子任务的研究,需要假定其它任务的结果已经给出,然而实际应用中没有完美的模型给定结果,从而存在误差传播和局限性。实际场景中的目标通常不是给定的,不仅需要自动提取出目标,也需
学位
随着GPS技术与移动设备的快速发展,基于位置的服务作为一种通用的技术应用,已在个人社交、社会进步和国家发展中发挥出了重要作用。数据发布为数据挖掘提供了最基本的支持,人们在享受这基于位置的服务与数据挖掘技术带来的便利时,大量的定位数据已被收集挖掘,甚至已经落入非法攻击者手中。轨迹数据作为定位数据的一种特别形式,其包含了移动对象的大量隐私信息,当海量轨迹数据未经处理直接发布时,能够换来更多便利的同时,
学位
医学影像是疾病筛查、诊断和治疗的最主要的信息来源。使用计算机辅助诊断技术对医学影像信息进行进一步的智能化分析挖掘,以辅助医生解读医学影像,成为现代医学影像技术发展的重要需求。近年来,人工智能、机器视觉等技术的突飞猛进,深度神经网络模型在图像视觉识别中表现卓越,为医学影像分析提供了新思路,已被广泛应用在医学图像的分割任务中。利用深度神经网络模型对医学影像进行自动分割,可以提高医生的诊断和治疗效率,因
学位