论文部分内容阅读
社交网络平台(例如新浪微博、Facebook等)用户身份挖掘是数据挖掘领域的新兴研究内容,本文针对其中两个重要问题,即用户身份标注和跨平台用户身份匹配开展研究,主要取得以下创新成果:1.提出能适应用户标记数变化的单标记用户身份标注算法。以往用户身份标注算法通常假设标记数不变,如果出现训练数据中未见过的标记,模型准确性将会受到影响。本文在单标记假设下,根据应用对准确性和高效性的不同要求,分别提出能适应用户标记数变化的算法SENCForest和SENC-MaS。真实数据上的实验测试验证了本文算法的有效性。2.提出能适应用户标记数变化的多标记用户身份标注算法。以往多标记用户身份标注算法在标记数变化的场景中,模型准确性将会受到影响。本文提出基于用户全局特征和局部特征的用户身份标注算法NL-Forest,不仅可以标注已知标记,还能够在多标记场景中检测出新出现的标记,并且对模型更新。真实数据上的实验测试验证了本文算法的有效性。3.提出能适应用户数变化的跨平台用户身份匹配算法。以往用户身份匹配算法通常基于静态用户数据建模,然而现实任务中用户数通常会发生变化。本文提出一种新的用户身份匹配框架,即基于用户隐空间的框架,并提出算法ULink-On,能随着用户数变化不断更新隐空间模型,最终在隐空间中匹配用户身份。真实数据上的实验测试验证了本文算法的有效性。4.提出能适应用户生成内容变化的跨平台用户身份匹配算法。以往跨平台用户匹配算法,通常假定用户生成内容不发生变化。然而现实任务中用户生成内容是经常变化的。本文提出一种适应用户生成内容变化的跨平台用户身份匹配算法AD-Link,通过学习带权重的匹配模型更好地量化生成内容间的重要性。真实数据上的实验测试验证了本文算法的有效性。5.提出能适应用户描述变化的跨平台用户身份匹配算法。以往用户身份匹配算法通常假设用户描述是不可变的,然而现实任务中用户描述会随着社交平台功能的发展而变化。本文提出一种适应用户描述变化的跨平台用户身份匹配算法AD-Link-f,通过建立已有描述和新描述间的联系使模型更快地适应新环境。真实数据上的实验测试验证了本文算法的有效性。