论文部分内容阅读
微博用户属性识别技术是数据挖掘领域的重要研究内容之一。随着互联网的飞跃式发展,人们分享互联网带来便利的同时开始更多的关注微博。微博是一种基于社交网络的平台,因其时效性和随意性的特点,更能时时刻刻反映出周围事物所发生的变化,作为一项人与人之间相互交流与沟通必不可少的工具。由于微博用户群体过多,就会产生大量数据,如何从这些数据中挖掘出有效的信息,已成为当今时代社会研究的一项重要课题。与此同时,如何通过对微博用户数据进行分析,推断用户的行为特征、检测网络安全问题等,依然是诸多社交媒体研究的一个关键环节。对于微博用户的性别、年龄、区域、兴趣偏好等特征,如何进行有效的预测,就能够避免一些错误的产生,甚至造福于整个社会。在科技发达的今天,对于微博数据的处理,脱离不了计算机技术的应用。而微博数据在网络媒体上所展现出来的是多样化姿态的特点,如何去深入理解微博用户的基本信息,从中识别微博的用户属性是其核心技术所在。虽然当前国内外已经对微博数据的挖掘进行了深入研究,但是所研究的内容主要基于微博情感分析、社交群体挖掘、话题发现等方向,相对用户的属性研究却比较少,比如用户性别、年龄、区域分类等。本文主要通过微博用户的性别和年龄两个方面,去介绍微博的用户属性识别。(1)基于支持向量机的微博用户年龄推断。通过训练SVM(Support Vector Machine)分类器,改进特征权重计算方法,构造不同特征向量,从而对微博用户的年龄推断精确度进行提高。(2)基于话题模型的微博用户性别分类。一方面,通过对微博用户兴趣进行建模,利用微博用户所发布的内容和关注行为相互结合,建立内容偏好和关注偏好,构造用于性别分类的特征,实验结果表明微博用户兴趣偏好特征有效性高于传统词类特征;另一方面,针对微博上存在活跃程度各不相同的用户其特征对分类结果所带来的影响。实验结果表明使用微博用户的关注偏好特征(不依靠微博的文本内容)去推测分类有效性更高,健壮性更好。