基于迁移学习的跨领域汉语解释性意见挖掘方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:lv0550159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着算力的提升与数据的积累,深度学习算法得到了飞速的发展,基于汉语的解释性意见挖掘方法也得到了大量的关注。传统的解释性意见挖掘方法往往依赖于所在领域的大量有标记数据,然而制作一份高质量大规模的数据所需要的时间、人力等成本过高。因此,本文在手机(目标领域)和酒店(源领域)两个垂直领域的在线评论数据上构造了一份高质量的迁移学习数据,并基于这份数据探索基于迁移学习的跨领域解释性意见挖掘方法研究,具体包括以下三个方面:(1)基于迁移学习的跨领域汉语解释性意见要素识别方法研究。本文首先探索意见要素识别的问题,其主要目的是识别出在线评论序列中的属性实体、对属性的评价以及产生该评价的解释性意见。解决该任务的基线模型是Bi-LSTM CRF有监督学习方法,并只使用小规模的目标领域有标记数据。在此基础上,本文利用大规模的源领域有标记数据学习不变特征,使用微调的深度迁移方法来学习目标领域的结构性特征,具体实现方法是选择不同神经网络层次结构来进行微调,并取得了更好的效果。(2)基于迁移学习的跨领域汉语解释性意见解释分类方法研究。在电商平台的在线评论数据中,用户对属性的情感倾向以及评价往往是有解释性的,本文根据解释的表达特点与逻辑关系将意见解释分为原因,建议和条件三个类别。解释性意见解释分类任务的基线方法同样采用基于注意力机制的有监督学习方法,并仅仅使用小规模的目标领域有标记数据,然后根据关键词特征尝试基于DANN的无监督学习方法与基于语料增强的Tri-training的半监督学习方法。实验证明,两种方法都取得了一定的效果。(3)基于迁移学习的跨领域汉语解释性细粒度情感分析方法研究。分析产品属性的情感倾向往往最能反映一个产品的受众情况。属性实体的情感倾向一般由上下文中相关的评价决定,因此本文使用注意力机制来结合上下文与属性实体的关系,并作为基线模型。同样,现有的迁移学习方法往往关注与学习领域不变特征,忽略了领域特有特征。在此基础上,本文提出基于领域特有情感词注意力模型的半监督学习方法。实验证明,该方法明显优于其他对比方法。
其他文献
类不平衡数据处理已成为机器学习与数据挖掘领域的研究热点与难点之一。特征选择是解决不平衡数据维度问题的常用手段,目的是尽可能地保留与少数类相关的特征以提高分类精度。不平衡数据结构的复杂性给后续的特征选择和分类带来了极大的困难,因此,研究类不平衡数据的特征选择以提高分类准确性是非常必要的。过滤法是特征选择最简单且常用的方法之一,使用单一的过滤法进行特征选择往往会使重要特征被遗漏。本文采用十种不同的过滤
无线自组织网络是一种自治、多跳的临时性网络,与传统的有线网络相比,能够在不依赖固定网络基础设施的情况下,快速地为军事和民事应用搭建网络平台,是移动通信网络的重要组成部分。相对有线链路,无线链路具有误码率高、带宽受限等特点,导致节点间的通信可靠性差、端到端时延高、吞吐量小。传统的多路径路由协议解决了数据分组的可靠传输问题,同时通过多路径并发传输技术提升了网络吞吐量,但并没有考虑针对不同的业务需求提供
随着科学技术的发展,越来越多的新型材料被开发出来,并且在人们的生活中起着越来越重要的作用。同时,为了节能环保,将已有资源重复利用或者提高利用率也是科研人员值得关注的问题。煤焦油中的富集产物芘具有独特的荧光性质,并且π电子离域能较强,还可以通过特殊的方法修饰其各个位置使其具有不同的性质,因此在有机光电材料,分子荧光探针,细胞成像等领域有着广泛的应用。本文通过特殊的方法,将羟基修饰在芘的非活性位置,并
当前,我国农民专业合作社正处于数量增长迈向质量提升的关键期,但大多数农民专业合作社存在总体发展质量不高,管理运行不够规范,对成员带动不够,成员合作意愿普遍不强等问题
轴手性作为一类特殊的手性骨架一直以来得到了广泛的关注,经过多年发展成为不对称领域中一颗闪亮的明珠。手性磷酸作为有机小分子催化中的翘楚,在近二十年里实现了诸多手性化合物的催化不对称合成。本文报道了利用Friedl?nder反应催化不对称合成轴手性芳基喹啉类化合物的研究。喹啉骨架在有机合成领域占有举足轻重的地位,广泛存在于天然产物、药物活性分子、配体及催化剂中。经典的Friedl?nder反应一直是构
随着当今社会计算机技术的发展,各类软件的代码规模不断增加,代码中所存在的问题排查难度越来越大,因此自动化软件测试逐渐受到了人们的重视。抽象语法树这一数据结构作为软件测试中代码信息的来源,其正确性与完整性对于软件测试的最终结果有着决定性的作用。传统的抽象语法树生成技术大都依赖于开发人员所提供的语法范式,且这些抽象语法树生成技术主要是进行较为简单的词法和语法分析,对于复杂程度较高的语法会出现分析失败的
二氧化氮(NO_2)是一种刺激性气体,会引起呼吸道感染,光化学烟雾和酸雨,对环境和人体极为有害。因此,开发一种高灵敏度、选择性好、响应快、检测限低并能在室温条件下进行检测的传感器是非常重要的。聚吡咯由于其优良的导电特性、易合成、易附在柔性薄膜上等优点,引起了人们的关注。但是,纯相聚吡咯气体传感器有很多缺点,主要为:气体传感器对气体的灵敏度、选择性和检测限不理想。为了提升其传感器性能,对聚吡咯进行掺
本论文以扫描隧道显微镜(STM)为主要研究工具,在高定向热解石墨(HOPG)的表面上,研究了一系列C_3型对称性羧酸分子在表面主客体化学中的自组装结构,并借助密度泛函理论(DFT)总结其中规律及特性,主要研究内容如下:(1)通过STM研究了,查尔酮二羧酸配体(H_2L)分子在不同溶剂中的自组装结构,发现H_2L分子在不同溶剂中会形成不同的自组装结构并对其形成机制进行探究;通过苯三氧十一酸(TCDB
随着全球信息化的到来,电子设备逐渐智能化,使用电子产品进行社交娱乐等活动已经成为大众生活中不可或缺的一部分。目前,中英文的文字识别技术已趋于成熟,但藏语由于受众较小,研究人员也较少,以藏文为基础的信息化处理技术则相对滞后。随着针对藏族文字手写输入和文本识别功能的设备越来越多,藏文的手写输入迫切需要更高效的识别技术。因此,手写藏文识别技术的研究不仅具有社会价值,还有更为广阔的市场价值。本文在深入分析
相对于传统的空气绝缘变电站(Air-Insulated Substation,AIS),绝缘介质为SF_6的全封闭气体绝缘变电站(Gas-Insulated Substation,GIS)拥有占地空间小、绝缘性好、安全系数高、灭弧性能好等特点,广泛应用于现代变电站中。但操作隔离开关和断路器等设备会产生特快暂态过电压(Very-Fast Transient voltage,VFTO),严重影响GIS