论文部分内容阅读
随着社交网络的不断发展,微博已经成为了人们日常生活中不可或缺的一个重要组成部分。微博当中,微博用户的自定义用户标签以及用户发布微博,转发微博等微博行为,反映了用户的兴趣爱好,如何通过这些信息,挖掘用户兴趣,发现用户兴趣社区,具有重要的研究意义和价值。本文针对微博用户兴趣社区发现,主要从以下几个方面展开了深入研究与探讨:(1)提出了一种基于特征映射的用户标签兴趣建模方法。针对用户标签反映用户兴趣的特点,选择用户标签作为用户兴趣模型的特征,并为了解决标签表述不一和长标签所带来的数据稀疏问题和噪声影响,引入特征映射的思想,将长标签进行分词处理,表示成子标签集,通过计算标签之间的相似度,将用户标签映射到相似度最高的特征维标签,利用标签相似度和标签频率的乘积作为特征维的特征值,构建用户标签兴趣模型,并利用模糊聚类方法,验证用户标签兴趣建模的有效性。(2)提出了一种基于有指导LDA的用户微博内容兴趣建模方法。针对微博文本交互对微博主题分布的影响,提出了一种有指导的LDA微博生成模型,综合考虑了转发微博,评论微博,回复微博,他人评论四个因素对用户微博兴趣主题分布的影响,在传统LDA模型的基础上,构建有指导的LDA微博生成模型,得到微博主题分布,并进一步得到用户主题分布,从微博内容角度对用户进行兴趣建模。(3)提出了一种融合用户标签和微博内容的用户兴趣社区发现方法。在(1)和(2)的基础上,利用用户模型相似度,构建用户标签兴趣关系网和微博内容兴趣关系网,与微博当中本身存在的用户关注关系网进行融合,并在此基础上,考虑微博用户可能属于多个社区所造成的社区重叠问题,提出了一种基于k-clique的用户兴趣社区发现方法,通过对社区重叠矩阵进行求解,得到社区连接矩阵,最后得到包含多个相连k-clique的用户兴趣社区。(4)利用上述研究成果,设计实现了微博用户兴趣社区发现原型系统。