论文部分内容阅读
微博作为当下最主流的社交网络平台之一,已经成为用户发布和获取实时信息的重要手段。微博主题建模能够从海量信息中挖掘用户感兴趣的话题和其他用户。但是由于微博具有消息文本短、信息更新快、以及数据量巨大等特点,传统的主题建模方法并不能有效挖掘出用户真正感兴趣的信息。本文在研究已有的主题建模方法的基础上,提出一种基于微博用户和时间维度的建模方法MBUT-LDA。其中MB代表微博(MicroBlog)、U代表用户(User)、T代表时间(Time)。该方法具有以下特点:⑴本文在分析研究已有主题模型的基础上,并且充分利用微博消息的主题在时间上有明显的集中性特点,将用户的微博信息按照时间进行划分。此方法解决了微博文本信息短引起的信息量不完整问题,并且充分利用了微博消息的主题有明显的时间集中性特点,提高了微博用户主题的准确度。⑵在分析微博用户和好友关系的提出上,提出“关注度”的概念;并结合TF-IDF算法,提出新的权重计算公式ATF-IDF,用以衡量微博词汇预测主题的能力大小。⑶现今微博用户量剧增,并且微博平台允许微博用户通过各种移动客户端发布即时信息,导致微博信息文档规模庞大,单一节点在分析微博海量信息时容易遇到性能瓶颈问题。本文利用分布式和虚拟化技术的优势,将提出的新的主题建模方法部署到分布式计算平台Hadoop上,实现了一个基于分布式框架Hadoop的MBUT-LDA微博用户主题挖掘方法。本文利用提出的分布式MBUT-LDA主题建模方法,通过大量微博消息训练微博主题模型,并在训练好的主题的基础上,挖掘微博用户的感兴趣的主题。实验证明,经过ATF-IDF优化的MBUT-LDA的推广度和主题的准确度要高于MBUT-LDA和U-LDA(基于微博用户的主题建模)。通过对不同用户数量和不同节点数量的分布式MBUT-LDA实验结果分析发现,随着节点增加,能够有效的减少处理数据的时间,并且能够有效的处理庞大的数据。