基于BERT的用户画像算法研究

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:qcxmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的高速增长以及国民教育水平的进一步提升,互联网越发被大众接受,逐渐融入人们的日常生活中,互联网规模也持续扩大。越来越多的人们在互联网上进行社交、购物、还有各种娱乐活动,同时留下了海量的网络数据。如何根据用户在网络上留下的个人行为数据进行群体划分,从大量信息中精确、有效地筛选出用户需要的信息,满足不同用户、群体的个性化需求成为当代企业亟待解决的难题。这种就是用户画像构建任务,已经引起了越来越多企业的注意。本文研究的是一种端到端的构建用户画像的深度学习方法。传统的深度学习方法是使用词向量初始化模型第一层,然后再通过构建复杂的网络抽取特征的方式完成用户画像构建。这种方式一是词向量泛化能力不足,二是词向量后面的层是随机初始化的,需要从头开始训练,需要非常多的数据才能使得模型收敛。针对上述缺点,本文进行的研究工作如下:首先,本文通过微调BERT的中文版本BERT-wwm-ext来完成构建用户画像的任务。BERT在预训练时使用了海量的未标记语料,学到了更为通用的表示,所以BERT的词向量泛化能力很强。本文以BERT为模型的龙骨架构,而后再通过神经网络进行特征提取的方式建模。由于导入了BERT的预训练权重,相当于已经很好地对多层神经网络进行了初始化,所以模型会比较快的收敛,而且不需要太多数据进行训练。本文采用的是2016年CCF举办的竞赛《大数据精准营销中搜狗用户画像挖掘》提供的数据集,其中包括了搜狗用户一个月的的查询词语料,以及性别、年龄、教育程度的三种人口属性标签。本文提出了三个模型BERTKCNN1、BERTKCNN2、BERTCATT。BERTKCNN1与BERTKCNN2都是以BERT最后四层输出的最大池化为嵌入层,由于用户查询语料没有明显的语序,两者都使用CNN抓取文本的关键词特征。考虑到文本长度过长,BERTKCNN1使用k-max池化来减少过拟合,为了利用更多分类特征,BERTKCNN2选择拼接最大池化、k-max平均池化、以及BERT顶层的pooler_output来作为分类特征。BERTCATT则是对BERT每层的CLS分类标记使用了注意力机制来筛选对任务有用的特征,并使用了Multi-sample dropout技术来降低模型过拟合风险。实验部分,为了验证预训练模型的威力,本文对原本10万数据集分层采样出9000多条数据来划分训练集、验证集。在同等条件下,本文通过BERT与Word2vec进行对比实验,分类精度平均高出后者16个百分点。另外,在都选择BERT条件下,也对本文提出的三个模型与其他3个深度学习神经网络进行对比,实验证明本文提出的三个模型都取得了更好的效果。
其他文献
随着我国无线通信技术和计算机技术的高速发展以及实际工程中日益增长的需求,网络化控制系统得到了学者们广泛的研究。相较于传统的控制系统,网络化的引入给控制系统带来了较
现代建筑施工企业已由过去直接从事建筑构件生产,转变为总承包经营管理模式。天津SJ公司作为一家以建筑施工为主业的企业,在历经房地产行业黄金10年发展之后成为天津市较大规
短波与超短波通信在远距离通信领域中扮演着重要角色。由于频段限制,短波与超短波天线普遍存在尺寸过大的问题,因此,宽频带电小天线成为短波与超短波通信领域研究的重点。通
目的:由于Cldn6属于预测细胞内蛋白和预测膜蛋白的范畴,故本研究以手术切除的组织作为样本,对其在肝癌组织中的作用和并发症进行了预测,并由学者们收集了用于免疫组织化学检测和组织学研究的标本。然后进行重复的实时PCR反应。同时进行变性和亲属定量研究材料和方法;为了更好地规划研究性学习,我们采用了比较多研究的方法。在图书馆学习期间,我们访问了相关医院,在那里我们可以获得肝癌患者的治疗数据。结果:CLd
目的探讨兔颈动脉粥样硬化(AS)狭窄模型中天冬酰胺内肽酶(AEP)的表达。方法将20只新西兰大白兔随机分成模型组(8只)、假手术组(6只)和对照组(6只),模型组通过手术损伤颈动脉
近年来,生成式模型在图像生成领域上得到了显著的发展与广泛的应用。人脸再扮演任务是该领域内的一个特殊课题,致力于将某一个体的头部动作与面部表情迁移到另一个体上,生成
由于信息技术的飞速发展,各种来源的数据以前所未有的速度在增加.量子信息处理由于其独有的性质在过去的几十年中变得越来越有吸引力.但是许多量子信号处理方法仅仅专注于整
三维人体骨架在人机交互、增强现实和医疗保健等领域有着广泛的应用。随着三维扫描技术的发展,点云数据的获取更加便捷,从点云中提取三维人体骨架对于三维场景理解具有重要意
许多工程问题可以简化为多自由度振动问题来描述机械系统振动的主要特征,因此多自由度振动方程的求解和分析是非常重要的。求解多自由度振动方程的方法有很多,但这些方法都有
嗜麦芽窄食单胞菌是一种重要的医源性条件型致病菌。对于免疫缺陷或免疫下降的病人,该菌感染的威胁程度显著提高,是目前导致院内感染最严重的病原细菌之一。该细菌能够快速形