论文部分内容阅读
社交网络数据的自动化分析是自然语言处理、社交网络分析等领域的重要研究课题。用户年龄属性识别是社交分析中的一项基本研究任务,该任务旨在通过用户在网上发布的文本信息或者用户社交信息确定用户准确的年龄或者所属的年龄段。准确识别用户的年龄属性,可以帮助很多社交应用,例如:智能营销、在线广告宣传以及用户个性化分析。虽然目前用户年龄分类已有一定研究,但是针对用户年龄回归的研究还比较匮乏。本文主要将年龄识别任务建模成回归问题进行研究,具体研究内容包括以下三个方面:首先,本文提出了一种基于主动学习的用户年龄识别方法。其核心思想是:首先,将整个特征空间划分为几个不相交的特征子空间,并利用这些特征子空间训练回归器委员会;其次,基于以上回归器委员会利用委员会投票方法从未标注样本中挑选不确定样本进行人工标注,并将标注好的样本加入到已标注样本集中;最后,使用扩展后的已标注样本集构建最终的年龄回归模型。实验结果表明,本文提出的主动学习方法可以有效的减少人工标注代价,同时获得较随机挑选样本更好的年龄识别效果。其次,本文提出了一种跨社交媒体的用户年龄识别方法。其核心思想是:首先,基于源社交媒体中的已标注样本集利用随机子空间生成方法,得到协同训练方法中的两个特征视图;其次,基于以上特征视图分别训练回归器,自动标注目标社交媒体中的未标注样本,利用委员会投票方法选择标注最确定的样本加入到已标注样本集中;最后,利用扩展后的已标注样本训练年龄回归器预测目标社交媒体中的用户年龄。实验结果表明,本文提出的半监督学习方法能够有效缓解不同社交媒体的文本适应问题,从而提升跨社交媒体的用户年龄识别性能。最后,本文提出了一种混合分类/回归模型的用户年龄识别方法。其核心思想是:首先,利用长短期记忆神经网络(Long Short-Term Memory,LSTM)分别构建年龄分类模型和年龄回归模型用于年龄识别,充分学习输入值之间的长相关联系;在此基础上,将年龄分类的结果与年龄回归的结果进行线性融合作为年龄识别的最终结果。实验结果表明,本文提出的混合模型能同时利用分类模型和回归模型的优势,相比于基于LSTM的年龄分类与年龄回归模型,能够获得更好的年龄识别效果。