微博用户的用户画像研究与构建

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sun0603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户画像使用个性化的数据去刻画一个特定的用户,给用户打上若干不同的标签,诸如:性别,年龄,工作,居住地等,这些信息帮助我们更容易,更详细的认识,了解用户。构造用户画像可以被细分为,如何准确的预测出用户的性别,判断用户属于哪个年龄段,进一步还可以确认用户的兴趣爱好和关注点等。目前,国内学者对中文用户的性别分类尚处于起步阶段,更是几乎找不到关于用户年龄段预测的研究。中文用户的用户画像研究还处在较为落后的水平。本论文基于新浪微博提供和整理的数据,提出了一个预测用户性别和年龄段两方面都比较通用的、鲁棒的方法与模型。在本论文中,我们首先挖掘了一些新的特征,如词嵌入,继而采用常见的机器学习方法和前沿的深度学习方法进行建模,训练分类器,采用stacking、bagging等技术融合特征与各分类器的结果。在尽可能控制特征维数的情况下,依然保证预测的准确性。最后,本文展示并对比了多个相关实验的结果,性别推断任务准确率为89%,年龄推断任务准确率为68%,验证了本文中提出的方法与模型。可以将此框架推广到处新浪微博以外的中文新闻媒体、社交网络等平台作为挖掘用户画像的方法。
其他文献
电视节目编导是指电视纪实作品的最主要的创作核心工作。具体是指从现实生活中选取有价值的题材进行策划、采访、制定拍摄提纲、组织拍摄、编辑制作,最后对作品进行把关检查
与传统营销模式相比,社交媒体营销具备高技术性、高传播性、高交互性以及低成本性等竞争优势,已经逐步成为了当代企业营销的一种主要手段。微博作为在中国众多社交媒体平台的
近年来国际上已认可蜂王浆主蛋白1(MRJP1)是代表蜂王浆新鲜度生物标志物。为此,我们通过蜂王浆主蛋白家族氨基酸序列的同源性分析。筛选出了1段MRJP1的特异性多肽(IKEALPHVPI
将人类听觉系统机理应用到机器人领域,不仅可与视觉互补,使得机器人能灵活地处理所处环境中视听信息,且对于智能机器人设计有重要参考价值。声源定位作为机器人听觉系统的主
“积力之所举,则无不胜也;众智之所为,则无不成也”。3月15日,十三届全国人大二次会议圆满完成各项议程,在北京胜利闭幕。这次会议是在全面建成小康社会关键之年召开的一次重
1840年以后,一大批基督新教的传教士来到中国,扮演了中西文化交流使者的角色。其中,来自苏格兰的传教士理雅各(James Legge,1815-1897)是一位大力推动“中学西渐”的汉学家。1861年理雅各英译的《孟子》出版。这部《孟子》英文译注本发扬了中西经典诠释传统,可谓是视角多元、包罗万象,至今仍是西方汉学界推崇的典范。这篇论文主要研究理雅各《孟子》译注本中的文学诠释的特点。论文的第一章,主
临汾地区处于西安与洛阳佛教文化交流的过渡带,佛教文化较为兴盛,存留有丰富的佛教寺院、佛塔、塑像、碑刻等,故佛教在临汾地区的传承与发展,在山西佛教乃至全国佛教中占据重
海上浮式液化天然气储存及再气化装置(LNG-FSRU)、液化天然气(LNG)运输船和浮式液化天然气生产储卸装置(LNG-FPSO)受到风、海洋波浪和海洋洋流等因素影响,处于不稳定的运动状
临近空间减速器作为一类具有重要应用价值的飞行器模型,在太空计划及促进临近空间高动态飞行器研究中具有重要的战略意义和实用价值。然而,由于临近空间复杂的环境构成,大范
在世界文化全球化热潮中,中国民俗文化翻译研究具有重要的时代意义。本翻译实践报告基于2016年度天津市哲学社会科学规划项目,对其中的“中国春节文化”文献部分进行了翻译实