基于多任务融合模型的用户属性推断

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:david_lau82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户属性信息是促进各类应用不断推进的重要资源。作为用户属性信息的间接获取方式,用户属性推断通过用户文本及行为等数据推断用户属性,为以用户画像和用户群体画像为基础的用户信息补全、需求分析、个性化推荐、精准营销及侦查工作等领域提供解决方案。随着网络技术的发展和海量用户数据的积累,用户属性推断方式开始向“数据驱动”型转变。如何从繁杂无序、严重碎片化的数据信息中挖掘出有价值的用户信息,成为学术界和产业界广泛关注的问题。通过国内外相关工作调研,用户属性推断的主要工作集中在探索用户某一属性的特征表示,特征提取方法需要大量的领域知识,忽略了用户整体表征对潜在信息挖掘的重要意义;且用户属性推断通常依靠单一分类器独立完成,单一“视角”观察较易丢失用户信息,单独对任务建模也忽略了任务间的相关性。基于此,本文通过分析用户历史搜索数据特性及用户属性间的关联关系,提出一种基于多任务融合模型的用户属性推断方法。主要贡献有以下三点:(1)针对用户属性推断任务中对特征提取的依赖性问题,本文首先采用无监督的神经网络模型doc2vec训练用户搜索文本,并根据搜索词短小特性修改模型参数,得出用户文档向量,作为用户特征表示取代特征提取环节。然后结合用户属性间存在的关联性,将多任务因素加入用户表征中实现用户属性间的相互制约。在总结用户文档语义的基础上完成用户建模。(2)用户搜索文本中新词出现频率较高,针对传统分词方式分词后出现的较多新词“错分”现象,本文基于词语共现思想,采用组合词方式增大新词发现概率,提高关键词提取质量,进而提高基于关键词词频的用户表征准确度。(3)实现语义及词频两个维度的用户表征基础上,本文采用基于Stacking的多任务多模型融合框架,学习跨多任务的共享语义,并通过模型的彼此互补增强用户属性推断准确度。实验在用户历史搜索词数据集上进行,推断属性为性别、年龄段和受教育程度。经实验证明,本文结果较其他模型结果显示出一定优势。
其他文献
公共卫生人才的实践能力和创新能力是适应21世纪经济社会发展的迫切需要,如何加强学生实践能力和创新能力的培养,提高其培养质量,是新世纪高等医学教育改革的重点。该文总结
在我国北方半湿润偏旱区的晋东豫西(寿阳)旱农试验区,持续10年进行了多种方式秸秆还田与秋季深施肥配合定位试验,探讨秸秆还田秋施肥对旱地玉米生长发育、产量、土壤水肥高效
围绕资源综合利用、节能减排及环境保护等发展方向,强调化工单元应用的重要性,介绍了萃取精馏技术在工业过程中的应用及对节能、减排的影响;列举萃取精馏技术对乙醛酯的制备及混
这种基于直流继电器的转接器,当关闭主机时,和其配套的外围设备可以自动断电,从而减少了只关闭主机没有关与其相接的音响、打印机等附属设备造成的能耗问题。该转接器具有结
目的:探索石河子市在校本科生视屏时间影响因素,为预防大学生视屏时间过长提供科学依据。方法:于2016年3-5月问卷调查2 073名石河子市大学生。结果:(1)调查对象学习日平均每天视屏
通过对大量多重复句的观察发现,在划分其中层次的时候,复句关系所处的层次并不相同,分布各有差异,并且能形成较严密的位序级差.我们用逻辑推证与典型例证相结合的方法,初步探
<正> 生产现状:丙烯腈是重要的有机原料,主要用于生产聚丙烯腈;其次,用于生产ABS、SAN树脂、丁腈橡胶;此外还用于生产丙烯酰胺和精细化工产品等。1987年,世界丙烯腈的生产能
运用资源型经济的形成机制理论及相关理论方法剖析山西省资源型经济的主要症状,运用资源型经济的规避和转型机制理论提出山西省资源型经济转型的策略和实现途径,为资源型经济地
一、创意产业及其发展创意自古就有,但把创意作为产业来发展的研究还是近10年的事情。1998年,英国创意产业专责小组首次对创意产业进行了定义:“源于个人创造力与技能及才华,通过
近世代数是大学本科数学专业的一门专业必修课,主要讲授群、环、域的基本概念和相关理论。作为高等代数的后继课程,在很大程度上依赖于高等代数的基础理论和逻辑思维能力,却又比