面向用户生成文本的预训练模型增强与压缩

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wintertear0704
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档级情感分类作为自然语言处理领域内的重要任务,一直以来广受关注。而得益于互联网技术的发展,用户在网络上发表的文本不断积累,为相关研究提供了扎实的数据基础。随着设备算力的提升以及可多层堆叠的Transformer结构的提出,一大批预训练语言模型在近些年间开始涌现。这些模型通常具有层次深、参数多的特点,并在大规模语料上提前进行了预训练,因此一经提出就在各种文本相关任务中达到了卓越的性能。近年来,如何增强预训练模型以提升模型效果,以及如何压缩预训练模型以提升模型效率,逐渐成为研究热点。但现有的研究少有在以下两方面进行探索:(1)如何利用文本所属用户信息增强预训练模型;(2)如何在兼顾用户文本隐私的情况下压缩预训练模型。因此,本文在基于用户生成文本的情感分类任务的大问题背景下,以预训练模型为基础对以上两个问题分别进行了研究。本文的主要工作和贡献总结如下:首先是基于用户信息的预训练模型增强研究。网络上的几乎所有文本都是由用户生成的,而在大部分情况下文本的作者用户身份是可知的。因此,本文提出了基于用户表示增强的预训练情感分类模型U-PLMs。具体来说,所提方法将用户的ID信息分别融入到了预训练模型的嵌入层模块以及编码器模块中,在避免对预训练模型本身的参数结构进行改动的情况下优化了文本的建模,提升了情感分类的性能。另外,本文所提出的模型框架具有较强的兼容性,能够应用于大部分现有的自编码语言模型中。实验结果表明了U-PLMs的有效性和卓越性能。第二个工作是对于无任务数据场景下的预训练模型量化的研究,其动机源自于预训练模型的过大容量以及部分文本数据的不可获得性。一方面,由于预训练模型通常过大,要想减少运行开销或是在资源有限的边缘设备(如移动设备)上运行,需要对这些模型进行压缩;另一方面,由于数据隐私等原因,在对模型进行压缩时很有可能只有一个训练完毕的模型,而无法获取该模型训练所用的标注数据。然而,现有的预训练模型压缩(特别是量化)工作大多依赖这些标注数据而忽略了部分文本的隐私性。为此,本文专注于模型量化,并在任务相关数据不可知的场景下进行了一定的研究,提出了针对预训练模型的无任务数据量化框架TDFQ-BERT。该框架利用了公开易获得的领域外文本作为数据载体,引入生成器模型使用遮蔽-预测的方式对文本进行改动,并使用对抗训练的模式使其在满足合理性约束的情况下尽可能生成有价值的文本用于量化训练。实验结果表明所提框架在任务数据不可知的情况下仍能将预训练模型量化至低精度且性能很少下降。综上所述,本文在基于用户生成文本的情感分类任务下对预训练模型分别进行了基于用户信息的性能优化以及基于无任务数据场景的量化压缩,在多个情感分类数据集上的实验结果证明了所提出方法的有效性。
其他文献
近些年我国经济保持中高速增长,居民收入水平显著提高,教育支出是居民家庭消费的热点。家长们更加注重孩子兴趣爱好的发展,有助于提升孩子的综合素质。家教的市场需求与国家推行的鼓励政策为大学生家教提供了良好的市场环境与发展机遇。随着信息技术及其应用的发展,运用计算机及网络技术解决问题已经成为一种主要的方式。尤其是学生群体,越来越倾向于通过网络来搜索自己所需要的信息,与互联网结合的线上家教信息共享平台对于大
学位
随着在线教学的发展,微视频融入教学过程受到教师们一致好评,针对微视频在教学中的研究也更加丰富了。在不同的情境下融入微视频,能在不同程度上辅助教学。“探究式教学活动设计”主题从2001新课标改革就已开始,向各位教师提供了一种重点学习方式:探究学习。并进一步的使用到课堂之中,训练学生的创新创造能力。我国教育部在2001年,颁布了《基础教育课程改革纲要(试行)》,其中也说明了在教育课程设计领域中,“以学
学位
管虎是中国第六代电影导演之一,其因独特的电影艺术风格,享有第六代电影导演“怪才”的称号。作为一位高度重视电影形式化表达的导演,社会批判、底层关怀、黑色荒诞、另类叙事以及风格化影像是管虎电影的创作底色。在管虎的电影研究中,“空间”是难以绕开的一个重要话题,他擅长通过对“空间”的选择来隐喻人物和时代的处境;抛弃传统以时间为主的线性逻辑叙事结构,在平面的空间内,构建空间化的叙事结构;并通过电影独特的视听
学位
STEAM教育强调真实问题情境,但源自美国的STEAM教育引入中国后,出现了问题情境与中国不相适配的问题,故而亟待寻求一种能够将中国的真实问题情境与STEAM教育相融合的教学模式,以期解决STEAM教育在中国实施过程中真实问题情境不足的问题。因此,本研究依托海塘文化课程,设计一种课程教学设计模式,将STEAM理念与地方文化相结合,以解决真实问题情境缺失的问题。为实现该目标,本研究主要完成了以下几方
学位
朱光潜是我国现代著名的文学理论家,他尤为关注文学中的“形式”问题。在他的文学理论建构中,朱光潜始终将文学形式问题作为重点考察对象,通过对形式问题的阐释来彰显文学的艺术特性,矫正文学界的歪风邪气,维护文学艺术的纯净性和规范性,从而此实现他的艺术理想。本文以朱光潜的“形式观”为研究对象,以朱光潜对于文学形式问题的思考为基点,采用逻辑与历史相统一的研究方法,通过对朱光潜文学形式观的系统梳理和分析,试图呈
学位
弗里德里希·基特勒(Friedrich A.Kittler)是德国著名的思想家,媒介理论家,他的媒介技术思想关注技术与人,与社会之间的关系,对当下美学的发展具有重要的启示意义。他的媒介思想也常涉及电影艺术,并把电影置于德国特定的历史环境下,图绘了电影从发明到接受的历史进路。此外,他还回顾了与电影相关的战争,哲学断片以及文学文本,并在其中展开了对电影存储与传统书写、后阐释与意识形态、技术与艺术等问题
学位
金介甫于1972年开始研究沈从文,并在1987年出版了第一本《沈从文传》。金介甫的沈从文研究产生于国内对沈从文研究的空白阶段,具有重要的开创性与前瞻性,其研究具有以下三个特点:第一,呈现出跨学科特征,其研究涵盖了文学、历史学、民族学和人类学等多门学科;第二,为研究沈从文提供了一个新的研究思路,即突出沈从文作品中的历史维度,注重从沈从文作品中去探寻近代湘西乃至近代中国的历史文化;第三,立足于边缘化的
学位
目前,乳液的过量排放对人类健康和生态平衡造成了巨大的威胁,特别是来自于餐厨和工业生产过程污染的油水乳液。常见的破乳方法包括各种物理、生物和化学法。其中,化学破乳法作为一种有效的破乳方法,在工业上得到了广泛的应用。近年来,离子液体作为绿色化学品,因其具有良好的热稳定性和两亲性被用作为破乳剂,但其作为均相破乳剂面临着分离回收困难的问题。聚离子液体作为多相破乳剂,具有离子液体单体重复单元,可以通过改变单
学位
近年来,随着城镇化、工业化快速推进,加强了城乡建设用地和社会经济发展的互动关系。我国长期特殊的城乡二元结构主要表现为城市对建设用地的需求持续增加,出现不断供给却日益紧缺现象;而在乡村则表现为人口不断涌入城市,其建设用地不减反增,进而造成乡村建设用地大量闲置。作为川滇黔结合部中心城市的七星关区目前正处于经济快速发展的关键时期,是国家特色农业和旅游业、重要新型工业基地,更是生态脆弱喀斯特山区工业化和城
学位
在经典金融时间序列和函数型金融时间序列建模中,波动模型GARCH、SV以及扩散过程等都是主流的模型,其中GARCH和SV模型具有相同的扩散过程作为它们的极限。在这些模型的统计推断——参数估计和假设检验中,拟似然方法都有着广泛的应用,其中一个主要原因是在现实中往往无法获得真正的似然函数。到本文写作之时,基于拟似然的GARCH、SV和扩散模型的拟似然统计推断方法已有不少的研究成果。本文对这些成果进行了
学位