论文部分内容阅读
随着移动互联网的发展和社交媒体网络的应用普及,越来越多的人使用多种多样的在线社交媒体服务,产生了海量的社交媒体内容信息并使得用户面临信息过载的问题。为此,如何更好地分析和理解用户,为用户提供个性化的信息服务,成为社交媒体的主要任务和挑战。用户人口统计属性,包括年龄、性别、婚姻状况和职业等,是理解和进行用户画像的基础。用户在社交媒体网络中产生的海量多媒体内容数据与丰富的用户行为信息,隐含地揭示了关于用户个人信息的重要线索,为解决社交网络中用户人口统计属性的缺失与稀疏问题提供了解决途径。基于此,本文重点研究如何利用用户的社交媒体行为来进行用户人口统计属性的推断,具体从用户人口统计属性的关联性和稳定性这两个特点出发,进行了如下三个方面的研究工作: 1.提出了基于超图学习的关联性用户人口统计属性推断方法。用户不同的人口统计属性之间存在着关联。在用户社交媒体行为的基础上,合理地利用用户已知的人口统计属性及其关联性,可以有效地帮助进行未知人口统计属性的推断。在超图中,将顶点表示为社交媒体网络中的用户,将超边表示为用户产生内容的相似性和属性之间的关系。利用超图模型,将用户属性挖掘形式化为一个正则化的标签相似性传播问题,可以有效推断用户的人口统计属性。 2.提出了基于对偶投影矩阵的跨社交媒体网络用户人口统计属性推断方法,解决了动态的社交媒体行为和相对稳定的人口统计属性之间的矛盾。基于存在唯一且稳定的人口统计属性导致用户在不同社交媒体网络中表现出不同的动态行为的假设,将用户在不同的社交媒体网络中的行为特征统一地投影到同一个空间中进行用户人口统计属性推断。在Google+和Twitter的真实数据集上的实验验证了提出方法的有效性。 3.提出了基于多源自编码器的跨社交媒体网络用户人口统计属性推断方法。基于用户人口统计属性的稳定性,寻找到用户在不同社交媒体网络中的共享行为模式,解决相对稳定的人口统计属性与动态的社交媒体行为之间矛盾,并处理用户标记数据难以获取的问题。该方法采用分层学习模型,利用更多社交媒体网络中无人口统计属性标记用户的行为数据寻找用户的共享行为模式,得到稳定的用户特征表达,再对有人口统计属性标记的用户进行用户人口统计属性推断的研究。该方法充分地利用大量无标记用户数据,找到不同社交媒体网络的共享行为模式,有效地提高用户人口统计属性推断的准确率。