论文部分内容阅读
随着社会的不断发展,互联网技术革新速度突飞猛进,人们的生活与互联网越来越密不可分,至此数字时代早已悄然到来,互联网数据呈爆发式增长。例如,搜索引擎、微博、微信等工具在人们的日常生活中扮演了越来越重要角色,每天都有许多用户在搜索引擎平台上进行信息搜索,留下行为数据,这些数据中隐藏着用户人口属性信息、习惯、爱好等信息,将用户属性信息转换成用户标签,为构建用户画像提供了数据基础。如何高效、准确地从行为数据中挖掘出用户标签来刻画出用户画像,文中利用算法模型来预测用户属性信息,进而为构建用户画像提供了新动力。本文根据用户在搜索引擎中的历史查询记录数据来预测用户年龄、性别及教育程度等人口属性标签,主要研究内容如下:(1)针对搜索引擎中用户行为数据特点,分析和研究多种知识表示方法,对比分析出用户在用词习惯、主题信息等方面特征,进一步分析词与词之间的关联。依据用户查询词的特点,在Doc2Vec模型基础上,提出了基于分布式记忆模型查询文档向量方法(dbow-qdv)和基于分布式词袋模型查询文档向量方法(dm-qdv),通过实验验证了两种改进后的训练方式在用户查询词文档分类预测准确性的提高。(2)提出基于Stracking策略和XGBoost的用户画像算法来预测人口属性标签。根据用户属性的关联性,交叉验证训练模型预测任务以达到预测效果的提升。在第一层级模型中,使用不同的基础模型来提取用户查询词中的特征,在第二层级模型中采用Stacking集成学习策略对特征进行进一步融合,最终实现人口属性标签的预测,通过实验验证表明,验证了提出模型在预测多种人口属性任务上的有效性。(3)对基于集成学习框架的算法模型进行改进,实现提升模型的泛化能力;将整体算法架构分为集成学习模型和语义编码模型。集成学习模型中采用多层模型来实现预测任务;语义编码模型中使用BERT模型对文本进行编码,提取深层语义信息,通过softmax完成多维人口属性标签的预测任务,最后将两者的结果进行投票决策,得到最终分类结果,实验结果表明,所提出的模型能够更好地完成对人口多维属性的预测任务。