基于句法依存信息的方面级民宿评论情感分类研究与系统实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:lisson000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着旅游业的快速发展,民宿已经成为旅游者外出落脚的首要方式。对网络平台上的民宿评论进行情感分析,有利于游客进行选择,商家进行针对性的改进。不同于传统的文本情感分类方法,方面级情感分类旨在识别出一个句子中不同方面的情感极性。以更细粒度的方式来进行分析,可以挖掘出用户对民宿不同特征的情感倾向。故利用方面级情感分类方法去分析民宿评论数据是十分有意义的。近年来,由于方面级情感分类任务的复杂性,传统的深度学习方法很容易提取到一个句子中其它方面项的意见词特征。也有研究者试图利用依赖解析器获取依赖关系,从而定位意见词信息,然而依赖解析器不能面向特定的方面项解析,所以在一个句子中存在两个或者两个以上的方面项时,解析器容易将不同方面项的意见词错误的连接起来,除此之外,以往的研究中没有将每个词的词性引入到判断情感极性的依据中,从而影响了情感极性的判断。针对以上不足,本文研究基于句法依存信息的方面级民宿评论情感分类方法并实现系统。主要包含以下几个方面的工作:1、给出一种民宿评论的批量获取方法以及包含去噪、词性标注、依赖解析、词向量化的数据预处理方法。该方法首先利用requests库批量获取评论数据并保存到本地,然后对爬取的民宿评论进行去除网络符号、去除停用词、去除URL的去噪操作,紧接着使用Jieba工具获取每个词的词性,利用DDParser生成依赖解析树,最后使用预训练的ERNIE进行词向量化操作。2、给出一种基于序列标注的方面项提取算法。该算法首先使用预训练的ERNIE学习完整概念的语义表示,再经过Bi LSTM提取关键特征,接下来将完整的隐状态序列接入线性层,获取每个可能标签的分数,最后通过CRF学习句子前后依赖并提取出方面项。通过实验结果表明,本文给出的方面项提取算法比经典算法效果更好。在准确率、精确率、召回率和F1值上,该算法分别达到了96.24%、98.16%、98.13%、和98.14%,与同领域经典算法BERT-Bi LSTM-CRF相比分别提高了1.67%、2.09%、1.66%、1.88%。3、给出一种基于句法依存信息的方面级民宿评论情感分类算法。该算法首先重构一个面向方面的依赖解析树,它可以更好的将方面项和意见词联系起来,然后引入词性关注机制,重点关注与方面项具有依赖关系的潜在意见词,之后通过GCN聚合给定词性权重的与方面项相邻的节点的特征向量,接下来将全局特征同局部特征进行拼接,再通过多头自注意力机制融合特征,最后进行分类得出情感极性。为避免过拟合,本文使用了L2正则化并加入了dropout层。通过实验结果表明,本文给出的方面级民宿评论情感分类算法比经典算法效果更好。在准确率、精确率、召回率和F1值上,该算法分别达到了97.15%、94.12%、91.37%和92.72%,与经典算法BERT-SPC相比分别提高了1.05%、2.7%、1.12%、1.89%。4、实现并运行测试方面级民宿评论情感分类系统。根据系统的各部分功能进行开发,然后对整个系统进行运行测试。运行测试结果表明,在共200个民宿评论中,本系统在环境、性价比、设施等10个方面都可以预测情感极性,并且预测效果较好。通过实验表明,该系统能够较好的提高任务的准确率和有效性。通过本文的方法研究与系统实现,为商家和游客提供更直观的用户评价信息,这些信息既有利于商家进行针对性的改进,又为游客选择更适合自己的民宿提供了决策依据,从而促进了旅游业与民宿行业的发展。
其他文献
南方城市的生活污水、污水处理厂尾水和农业径流等水体常呈现低C/N(COD/TN<3~5)的水质特点,这种水体中有机物含量低但氮素含量较高,碳源不足是该类废水反硝化脱氮的技术难点。人工湿地具有环境美观、工艺简单、费用低廉、水质净化效果好等优点,是目前各国大力推广的污水处理方法,尤其在农村和管网未普及地区,近年来也常被应用于处理低C/N污水。但是人工湿地中可利用碳源的缺乏在一定程度上限制了系统中反硝化
学位
将赤平极射投影法、有限元强度折减法及极限平衡法相结合,对长沙某矿坑高陡岩质边坡进行分析,采用赤平极射投影法对边坡进行初步分析,利用有限元软件Phase~2对矿坑开挖后的应力变化、破坏模式进行数值模拟,确定边坡支护范围并采取支护措施,结合极限平衡软件Slide计算边坡支护效果。研究表明,开挖后在边坡中上部为应力松弛区,坡脚为应力集中区。该高陡岩质边坡的变形趋势为双平面滑动破坏,采用浅表层刷坡、预应力
期刊
歌剧是莫扎特重要的创作领域之一,他的音乐有着鲜明的时代精神,并深刻的反应了市民阶层的生活思想和内容。他赋予音乐优美、欢快的旋律,而又深刻的批判了当时社会的黑暗,推动了整个社会和音乐的发展,无疑是在当时具有进步意义。《费加罗的婚礼》是莫扎特创作的最著名的歌剧之一。此部歌剧源自于博马舍的同名戏剧,作为一部喜剧,它揭露了封建帝国主义荒淫无度的生活,同时又是社会背景下的时代产物。《我要报仇》是此部歌剧中男
学位
氮素是植物生长发育过程中所需要的重要的矿质营养元素。受气候变化及森林植被破坏等因素影响,生态系统脆弱地区土壤中的氮素有效性逐渐降低。已有的研究表明在低氮胁迫下植物体内的氮含量会减少,但根系的发育会得到促进,从而提高氮素利用效率。豆科植物能够与土壤中的根瘤菌共生进行生物固氮,以满足植物对氮素的需求。但是目前关于豆科植物应对低氮胁迫的生理响应和氮分配的研究多数集中在大豆、苜蓿、百脉根等草本植物,对于豆
学位
甲骨文是篆刻在龟甲或兽骨上的古老文字,是中华民族宝贵的文化遗产,更是全人类的精神财富。然而,新出土的甲骨多为碎片,只有完整的甲骨片才可以展开学术研究。因此,甲骨材质辨认和甲骨缀合成为了甲骨学研究中首当其冲的关键步骤。现阶段,甲骨材质辨认和甲骨缀合工作主要依靠人力完成,研究进程缓慢,极为耗时耗力,严重制约了甲骨文研究的进展,亟待解决。随着人工智能技术的快速发展,使用人工智能技术解决甲骨学研究难题已经
学位
电子商务模式的迅猛发展,影响着人们的生活方式,线上购药逐渐成为一种发展趋势。但是,目前销售平台将药品按照普通商品的模式,通过销量、用户点击等行为进行统一的商业化推荐,没有考虑到药品的特殊性以及不同疾病之间药品的差异性。根据疾病类型对药品进行针对性推荐,能准确、高效的帮助用户寻找到符合自身需求的药品,由于疾病种类繁多,因此选择了特点显著的精神科疾病作为研究对象。精神科疾病和普通身体疾病不同,患者通常
学位
甘蔗是我国最重要的糖料作物,矿质元素中氮素对于甘蔗生产的贡献最大,也是甘蔗最需要的营养元素之一。当前我国甘蔗生产中氮肥过量施用现象普遍,不仅增加施肥成本,也带来一系列环境问题,迫切需要降低氮肥用量。但是,目前我国甘蔗生产适宜施氮量的推荐多基于田块尺度的试验,对甘蔗施氮效应的区域影响因素关注较少,不能得出具有广泛代表性的推荐量。为此,本论文拟结合区域尺度和田块尺度的工作,对甘蔗的施氮效应与适宜施氮量
学位
反思文本分类是指按照预先设定的反思话语框架或体系对反思内容进行分类的过程。反思文本自动分类技术能够为学生提供即时的反思评估和反馈指导,促进学生积极地改善反思活动,提升反思能力,进而提高自己的学习能力。目前,在反思文本分类的研究中,还没有基于中文的反思文本分类模型,且存在反思文本分类的准确率不高的问题。随着预训练语言模型的在文本分类领域取得的优异成绩,为解决反思文本分类的准确率不高的问题提供了可能。
学位
社交媒体为公众即时交流带来了便利,但同时也成为了谣言发布和传播的媒介。谣言的发布和传播为社交媒体的科学管理和有效利用带来了严峻挑战。目前依靠人工收集并验证谣言的方式存在覆盖度不足、时延性较高的问题。因此,从社交媒体海量的信息中及时而准确地检测出谣言成为一个亟需解决的现实问题。通过自动谣言检测方法辅助人工进行检测,对减轻甚至消除谣言的负面影响具有积极意义。现有的自动谣言检测方法可分为基于机器学习的方
学位
随着社会的发展进步和人民生活水平的提高,人们对公共交通出行需求不断提升。X光安全检查是防止限制品威胁公共交通,保障乘客人身财产安全的必要手段。安检工作的质量好坏将直接关乎到人民利益和社会繁荣稳定。安检工作需要安检员在短时间内快速对行李X光图像做出反应,辨别其中是否含有限制品。并且随着出行人数的不断增加,人工安检压力增大,逐渐无法满足快速、准确的需求,容易造成漏检、错检等人为事故。近些年来,计算机视
学位