论文部分内容阅读
近年来,微博以其便捷、及时的信息分享、传播和获取方式,迅速在互联网上流行,使用的用户数量与日俱增。随着网络用户个性化需求的质量不断提高,建立有效的用户兴趣模型便是为用户提供个性化服务的有利工具,同时也是商业广告投放等领域首要也是重要的研究内容。作为微博平台信息呈现和传递的载体——微博短文本,包含了用户最直观或潜在的兴趣偏好信息。因此,通过研究微博短文本挖掘用户兴趣信息,从而可以有效地建立微博用户兴趣模型。由于微博短文本内容信息含量少,所含特征不够明显,因此为了缓解短文本造成的数据稀疏性问题,本文在分析微博短文本结构和内容的基础上,提出了微博短文本重构思想,根据微博相关的其它微博短文本和文本中包含的三种特殊符号,进行扩展文本内容,从而扩充了原始微博的特征信息;在建立微博文本的表示模型时,采用了LDA模型挖掘出潜在的语义信息得出兴趣主题的概率矩阵,并在此基础上建立了基于向量空间的“主题-关键词”二级微博用户偏好的表示模型,从语义层面上挖掘用户的潜在兴趣主题;最后给出了建模步骤,在通过聚类微博文本确定用户兴趣类别阶段,提出了聚簇主题识别方法,将层次聚类的结果用具有代表性的兴趣主题和关键词表示,从而提高了模型的易理解性和应用性。实验表明构建的基于微博短文本的用户兴趣模型具有较好的性能。