论文部分内容阅读
由于微博用户的数目急剧的增加,每天在微博平台产生的话题数目也随之大量的产生,面对着大量产生的话题,用户往往很难筛选出自己感兴趣的话题。为了解决这个问题,本文提出了基于知识图谱构建的微博话题推荐算法以其帮助用户找到自己感兴趣的话题,使得微博话题能被其感兴趣的用户浏览。主要的研究内容如下:(1)建立微博话题知识图谱。先对获取的微博文本进行预处理,将处理后的微博文本使用学习到的前后缀规则获取命名实体。接着对微博语句进行依存句法分析,通过Bootstrapping微博关系抽取算法抽取微博关系。最后将命名实体视为节点,抽取的对应关系视为连接两节点的边,通过软件绘制实现知识图谱的可视化展示。(2)建立话题用户兴趣度矩阵。定义用户微博词语特征词集合(User Weibo word feature set),并使用TF-IDF依据用户微博历史数据进行获取。将微博话题知识图谱与微博话题知识图谱进行匹配,获取用户兴趣度矩阵,得到选取所有用户对所有话题的偏好。最后再将用户使用划分聚类的方法k-means进行聚类分析。(3)基于话题知识谱图和用户兴趣度的微博推荐。我们首先定义了微博话题命名实体系数,用来表征微博话题的命名实体对于用户的重要性,然后在微博话题知识图谱和用户聚类分析的基础上,将微博话题进行基于话题知识图谱的协同推荐,获得微博话题推荐集合。再将待推荐的微博话题特征词权值向量与微博话题命名实体系数构成的向量进行相似度计算,基于用户内容的筛选,获得相似度高的推荐话题集合,最终获得推荐集合。经过实验的数据的验证,基于话题知识图谱的微博推荐算法可以使推荐给用户话题的准确率有很大程度的提高,很大程度上减轻了用户寻找感兴趣话题的时间,及时高效的帮助用户获取了对自身有用的信息。本文创新地将微博话题知识图谱和协同过滤推荐结合起来,通过建立用户兴趣度矩阵很大程度的缓解了协同推荐的冷启动问题,并定义了微博话题命名实体系数,将协同过滤获得的话题中不符合用户偏好的话题进行过滤,最终提高了推荐的准确率。图[13]表[16]参[62]。