论文部分内容阅读
用户建模是指通过对用户相关数据进行分析来构建用户模型,以揭示用户兴趣或特性。在信息服务系统中,基于用户的模型可以更为准确地为用户提供个性化定制服务,有效缓解随着网络信息海量增长带来的信息过载问题,更好地满足用户的个性化信息需求。本文主要研究基于主题模型的用户建模,即通过主题模型来对用户数据进行分析,由此来构建用户模型。本文分四步在主题模型中逐渐地引入用户相关信息来不断丰富用户模型:针对对用户相关文本构建半监督LDA模型,增加用户和用户特性构建用户特性主题模型,在此基础上,一方面,进一步在模型中引入标签信息,另一方面,结合用户属性信息来完善用户模型。论文工作的主要贡献包括:提出了一种结合主题特征的半监督LDA模型。在LDA中引入种子主题的主题特征作为监督信息,利用监督信息在抽样过程中影响用户相关文本的主题分布而达到半监督的目的。对于主题特征,则借助网络信息由种子词采用一种自动的方式来获取。实验表明,通过引入主题特征,一方面,和LDA相比,可以在不增加模型复杂度的基础上得到更接近用户真实兴趣的主题分类。在用户浏览历史数据上,模型的聚集-分散度可以达到1.902,较LDA相比有1.9%的提升。另一方面,也可以获得对用户相关文本的显式的主题特征描述。提出了一种基于用户特性的主题模型。在主题模型中引入用户特性这一隐变量,从而对用户和文本的观测信息采用各自独立的隐变量进行表征,由此构建用户特性的LDA模型,并通过对模型非参化,提出了用户特性的DP模型。实验表明,在引入用户特性之后,由于综合考虑用户和文本信息及其隐变量,可以得到比仅考虑单一信息或者单一隐变量的主题模型更好的文本建模效果。在CiteSeerX数据集上,用户特性LDA模型对文本建模的混淆度可以达到1118.37,较LDA有12.2%的提升。此外,也可以获得不同用户特性下主题词的分布情况,得到对用户更细致的分类。提出了一种结合标签的用户特性主题模型。在模型中,综合考虑用户、目标文本和标签信息,由此来对社会化标签系统进行建模。其中,同一文档的文本和标签共享该文档的主题分布,而用户和其标签则又同时受到该用户的用户特性的影响。从实验结果可以发现,由于用户特性的引入,使得文本和标签的建模性能都有所提升。在del.icio.us数据集上,模型对文本和标签建模的混淆度分别可以达到2736.03和70.62,较Tag-LDA有将近1.4%和18.8%的提高。此外也可以发现,在社会化标签系统中,用户特性一方面表现为用户感兴趣的主题的差异,另一方面则表现为用户用词偏好的差异。提出了一种结合用户属性的用户特性主题模型。在用户特性主题模型的基础上,引入用户属性来决定用户特性的分布。由此,除了可以得到用户属性和用户特性之间的关系,也可以获得对用户特性更加精细的划分和描述。从实验结果可以发现,用户属性的引入可以带来算法在文本建模性能上的提高。在CiteSeerX数据集上,模型对文本建模的混淆度可以达到1217.16,较用户特性主题模型有11.2%的提升。而且,通过用户属性将用户特性的分布进行分层,也使得对用户的建模和分类更加准确。