微博用户隐含属性识别技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:catherine00800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博用户属性识别技术是数据挖掘领域的重要研究内容之一。随着互联网的飞跃式发展,人们分享互联网带来便利的同时开始更多的关注微博。微博是一种基于社交网络的平台,因其时效性和随意性的特点,更能时时刻刻反映出周围事物所发生的变化,作为一项人与人之间相互交流与沟通必不可少的工具。由于微博用户群体过多,就会产生大量数据,如何从这些数据中挖掘出有效的信息,已成为当今时代社会研究的一项重要课题。与此同时,如何通过对微博用户数据进行分析,推断用户的行为特征、检测网络安全问题等,依然是诸多社交媒体研究的一个关键环节。对于微博用户的性别、年龄、区域、兴趣偏好等特征,如何进行有效的预测,就能够避免一些错误的产生,甚至造福于整个社会。在科技发达的今天,对于微博数据的处理,脱离不了计算机技术的应用。而微博数据在网络媒体上所展现出来的是多样化姿态的特点,如何去深入理解微博用户的基本信息,从中识别微博的用户属性是其核心技术所在。虽然当前国内外已经对微博数据的挖掘进行了深入研究,但是所研究的内容主要基于微博情感分析、社交群体挖掘、话题发现等方向,相对用户的属性研究却比较少,比如用户性别、年龄、区域分类等。本文主要通过微博用户的性别和年龄两个方面,去介绍微博的用户属性识别。(1)基于支持向量机的微博用户年龄推断。通过训练SVM(Support Vector Machine)分类器,改进特征权重计算方法,构造不同特征向量,从而对微博用户的年龄推断精确度进行提高。(2)基于话题模型的微博用户性别分类。一方面,通过对微博用户兴趣进行建模,利用微博用户所发布的内容和关注行为相互结合,建立内容偏好和关注偏好,构造用于性别分类的特征,实验结果表明微博用户兴趣偏好特征有效性高于传统词类特征;另一方面,针对微博上存在活跃程度各不相同的用户其特征对分类结果所带来的影响。实验结果表明使用微博用户的关注偏好特征(不依靠微博的文本内容)去推测分类有效性更高,健壮性更好。
其他文献
近年来,互联网行业处在迅猛的发展中,以计算机科学为基础的互联网技术使得信息的使用和传递变的更加便捷。现代互联网产业以现代新兴的互联网技术为基础,专门从事互联网资源
改革开放以来,跨地区合作成为经济全球化时代背景下的一种普遍经济发展模式,并且越来越多的在规模不同或发展水平不同的非对称区域间开展。而“一带一路”国家战略的提出更是
网络技术在不断的进步,无线网络也得到了普及,移动自治网络(MANET)是一种新型的网络,是未来网络发展的主要发展趋势,MANET网络指的是一种无线移动的通信网络,它是由自带无线
金融危机的爆发引起了全球经济的轩然大波,市场间的相互依赖关系是致使危机迅速蔓延的重要原因,准确测度市场间相依度对稳定经济具有重大意义。本文选用沪深300股指期货与沪
随着建材学院招生人数正在不断的扩大,而且随着建材学院专业也在不断的增加,财务管理工作变得愈加的复杂,给财务部门带来了巨大的压力,因此本系统专为建材学院开发的财务信息
中国联通辽宁分公司主要经营宽带、移动业务等产品。公司尊崇“踏实、拼搏、责任”的企业精神,并以诚信、共赢、开创经营理念,创造良好的企业环境,以全新的管理模式,完善的技
公司机会规则滥觞于英美国家,是公司与公司受信人间基于公司机会的法律规范。作为立法继受的产物,公司机会规则在我国《公司法》的规定过于简单、笼统,导致该规则的司法实践
抢米风潮作为底层贫民争取生存权的传统手段,历朝历代都在重复上演。在近代社会秩序重构的大背景下,抢米风潮却出现了新的元素和意味。1898年以后,由于经济环境的恶化和水旱
P2P网络借贷源于英国,2005年3月Zopa平台的开通是其诞生的标志。借款人在该平台上注册后即可提交借款申请,通过平台的身份审核和信用评估后,其借款需求便被发布到平台上;投资
随着移动互联网的飞速发展以及“互联网+”这一新概念的提出,互联网规模以及互联网业务的需求日益膨胀,对于组网的灵活性和网络管理的高效性都提出了更高的要求。下一代网络