面向数据缺失的对抗生成文本分类方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:mfktadxxxa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类一直是自然语言处理方向中的研究热点。近年来,由于计算能力的快速提升,基于深度学习的文本建模方法取得了成功。但是基于深度学习的文本建模方法需要大量标记数据支撑模型训练。这对其应用场景造成了一定的限制。具体地,现实场景中可能存在两种数据缺乏问题:1)标签缺乏。一些问题虽然有相关数据,但是没有数据对应的标签;2)数据缺乏。一些问题的数据只包含可能的标签,但是没有标签对应的训练数据。本文从数据生成角度,对这两种场景下的文本分类任务进行了研究探索。本文的主要工作如下:对于标签缺乏问题,本文工作集中于跨领域文本情感分类问题。具体地,现有两个领域的数据,一个领域存在大量有标记数据,称为源领域;另一个领域只有无标记数据,称为目标领域。本文解决在目标领域进行文本情感分类的问题。目前已有一些模型迁移方法可以把源领域训练的深度模型迁移到目标领域上。然而,现有的深度学习迁移框架主要着眼于使特征提取器输出领域无关的特征向量,而忽略了无标记数据隐含的标签信息。因此,本文提出了一种新的基于对抗学习与互学习方法的深度学习模型框架DAML。在目标领域,DAML通过互学习方法为无标记数据生成伪标签,使多个模型进行信息互补,从而最大化利用无标记数据。实验表明,DAML框架的效果超过了目前所有的其他基准方法,证明了生成方法解决标签缺乏问题的能力。相关工作已发表于AAAI-2020会议。对于数据缺乏问题,本文工作集中于零次文本分类问题。在零次文本分类问题中,训练数据只能覆盖一部分类别,而另一部分类别没有对应的训练数据。本文解决这种数据缺乏场景下的文本分类问题。由于需要预测的类别没有训练数据,且类别描述本身所带有的信息极少,因此现有的模型大多是基于词语的规则模型,模型效果依赖于相关专家的规则设计。本文为了解决这一问题,提出了一种基于对抗学习与注意力机制的数据生成方法ADG4ZS。此方法通过对真实数据中每个单词进行不同程度的迁移,生成未见标签的数据,这些数据之后用于深度模型的训练。实验表明,此方法效果超过了目前效果最好的其他模型,证明了生成方法解决数据缺乏问题的能力。综上所述,本文从数据生成角度,针对深度学习模型难以发挥作用的数据缺乏场景进行了研究探索。本文使用标签生成与数据生成方法增加了数据的利用效率,使深度模型在这些场景发挥作用。多个公开数据集上的实验结果证明了本文方法的有效性。
其他文献
静态调度问题一般是NP-hard问题,而动态调度问题的性能指标比静态调度的更为复杂,并且以多目标综合性能指标居多。在系统地研究了多目标动态作业车间调度问题的基础上,运用滚
可逆信息隐藏将特定水印嵌入文件之后,还能够从载密文件中无损重构出原始文件和特定水印,主要应用于版权保护及数据完整性认证。由于嵌入水印的图像发生了修改,会使得载密图的后期处理,如识别匹配等操作受到影响。然而,诸多针对彩色图像的算法如SIFT(Scale Invariant Feature Transform)等,其均首先将彩色图映射成灰度图,进而在灰度图上进行算法操作。基于灰度图的算法,只要可逆隐藏
课堂教学是学校实施教育的主要形式,传统的美术教育是一种你讲我听的“灌输式”和“培训式”的活动。回顾和观察美术教学的种种情景,要求的直接指向是:我们怎样才能做到更“有效
本论文探讨了小学“自然笔记”课程设计背景,课程内容,课程实施。
对供应链管理中产品任务平均完成时间的求解策略问题作了讨论,提出了一种利用连续时间随机Petri网实现对产品任务平均完成时间的算法,并通过算例验证了算法的可行性.
在信息化的推进过程当中,似乎从来就不缺乏的两个关键字就是:“技术”和“标准”。前者是软件提供商的主要工作,而后者则似乎是需由整个行业协同推进的。
儿童品德的形成源于他们对生活的体验、认识和感悟,只有源于儿童实际生活的教育活动才能引发他们内心的而非表面的道德情感、真实的而非虚假的道德体验和道德认知.一定要从真
1、提高教师的心理品质和师德风范。“学高为师,德高为范”。教师要为人师表,不仅要有广博的知识,更重要的是要有高尚的师德。教育是一项“危险”的事业,也许教师引以为自豪的做
介绍了ICU医嘱执行单的设计与应用.临床应用表明,该ICU医嘱执行单内容全面,几乎包含了每个危重症患者的所有治疗及护理;执行轻松,书写规范,保存容易,能有效提高护士的工作效
职业学校加强学生公民意识教育,是时代发展对职业学校提出的新要求,也是职业学校学生自身发展的需要,更有助于推进职业学校德育教育的改革,提高德育的实效性。职业学校应该着