基于用户行为数据的用户画像构建算法分析研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:yy136301854
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断发展,互联网技术革新速度突飞猛进,人们的生活与互联网越来越密不可分,至此数字时代早已悄然到来,互联网数据呈爆发式增长。例如,搜索引擎、微博、微信等工具在人们的日常生活中扮演了越来越重要角色,每天都有许多用户在搜索引擎平台上进行信息搜索,留下行为数据,这些数据中隐藏着用户人口属性信息、习惯、爱好等信息,将用户属性信息转换成用户标签,为构建用户画像提供了数据基础。如何高效、准确地从行为数据中挖掘出用户标签来刻画出用户画像,文中利用算法模型来预测用户属性信息,进而为构建用户画像提供了新动力。本文根据用户在搜索引擎中的历史查询记录数据来预测用户年龄、性别及教育程度等人口属性标签,主要研究内容如下:(1)针对搜索引擎中用户行为数据特点,分析和研究多种知识表示方法,对比分析出用户在用词习惯、主题信息等方面特征,进一步分析词与词之间的关联。依据用户查询词的特点,在Doc2Vec模型基础上,提出了基于分布式记忆模型查询文档向量方法(dbow-qdv)和基于分布式词袋模型查询文档向量方法(dm-qdv),通过实验验证了两种改进后的训练方式在用户查询词文档分类预测准确性的提高。(2)提出基于Stracking策略和XGBoost的用户画像算法来预测人口属性标签。根据用户属性的关联性,交叉验证训练模型预测任务以达到预测效果的提升。在第一层级模型中,使用不同的基础模型来提取用户查询词中的特征,在第二层级模型中采用Stacking集成学习策略对特征进行进一步融合,最终实现人口属性标签的预测,通过实验验证表明,验证了提出模型在预测多种人口属性任务上的有效性。(3)对基于集成学习框架的算法模型进行改进,实现提升模型的泛化能力;将整体算法架构分为集成学习模型和语义编码模型。集成学习模型中采用多层模型来实现预测任务;语义编码模型中使用BERT模型对文本进行编码,提取深层语义信息,通过softmax完成多维人口属性标签的预测任务,最后将两者的结果进行投票决策,得到最终分类结果,实验结果表明,所提出的模型能够更好地完成对人口多维属性的预测任务。
其他文献
2005年11月11日在德国杜塞尔多夫举行的2005钢铁年会全体大会上,德国钢铁学会授予中国金属学会副理事长仲增墉教授荣誉会员称号,以表彰仲教授在促进中德两国冶金工作者交流和构
企业参与高职技能培养质量监控与保障体系虚位,严重影响了高技能人才的培养和高职技能培养质量监控与保障体系的完善,因此,充分发挥企业在高职技能培养质量监控与保障体系中
铅山县物价局依据《价格法》,围绕"清费、治乱、减负"这个中心,进一步加强收费管理,为治理经济环境,促进经济发展发挥了积极作用.
小学生在课堂上的能动性还没有完全形成,对知识进行探究的能力并不强,尤其是在合作学习中表现出来的合作意识不强,影响了合作学习的质量与效率。只有具备了良好的合作意识,学
在长期的封建社会中,立法、司法的出发点都是维护少数封建统治阶级的利益,"礼不下庶民,刑不上大夫"的思想根深蒂固.虽然先秦就萌现了"以民为贵"的民本思想和"法不阿贵"的司法
<正> 广钢企业集团广州珠江钢铁有限责任公司(简称珠钢)建成国内第一条CSP生产线,珠钢的投产结束了广东省没有热轧薄板的历史,将对广东省、广州市的经济发展产生很大的促进作
生物质是我国在能源危机下大力推行的新资源,生物质也是世界公认能在未来代替石油能与煤炭的一类重要资源,将生物质作为原材料实现化学化工的发展,促进生物质在工业生产、加
按西方的解释,公用事业是"受公共利益影响的经济行业及其活动",即为社会提供能源(电力、天然气和人工煤气)、邮电、用水、供热和公共交通等服务的国有或私营公司及其活动.公
接待费是机关日常开支的重要组成部分,也是造成经费超支、形成经费"漏洞"的重要原因之一.要管好接待费,笔者认为应当念好"明、严、联"三字经.