论文部分内容阅读
随着互联网的迅速发展,微博作为一种新型的网络媒体形式,越来越多地被人们所接受。微博话题检测与追踪技术主要研究如何对海量微博信息进行合理分类,及时发现重要信息并加以跟踪,已经成为当前研究热点之一。为此,本文主要研究了微博发帖规模预测、微博数据净化、微博话题检测与微博话题追踪等内容,取得以下研究成果:(1)在微博发帖规模预测方面,针对微博发帖行为的随机性、有序性、独立性等特点,采用非齐次泊松过程(NHPP)建立了微博发帖规模预测模型;基于实际数据,求解了该模型。实验验证了NHPP预测模型的可行性和合理性,结果表明NHPP模型预测效果优于GM(1,1)模型。(2)在微博数据净化方面,针对微博语言口语化和不规范导致的数据质量问题,采用“质心”、“度-中心值”和“特征向量-中心值”等三种算法对微博数据进行净化;并依据规范性、相关性和有益性等质量评价指标,比较分析了三种算法的净化效果;在此基础上,设计了一种微博数据净化处理系统框架。实验表明:净化处理显著提高了微博数据质量指标值,平均提高20%以上。(3)在微博话题检测方面,针对微博数据特征稀疏问题,提出了MB-SinglePass微博话题检测算法。该方法利用同义词典进行特征扩展;提出了融合了余弦相似度、雅各比相似度和语义相似度的组合相似度策略;采用双阈值和动态主题模型策略,并结合微博发帖人之间存在的相互关注等结构化信息、帖子之间转发评论等内在关联关系辅助进行话题检测。实验表明:采用组合相似度策略的检测效果比采用单一相似度策略更好;与MB-InC、MB-InK等检测算法相比,MB-SinglePass算法显示了更优的检测性能。(4)在微博话题追踪方面,针对训练样本稀少的问题,提出了SA-MBLDA微博话题追踪方法。该方法基于主题概率思想,引入了相关人主题兴趣隐含变量,并利用微博中原帖与转发评论帖子之间的话题关联关系来构建话题训练模型;设置了相关度反馈阈值以选择参与话题模型重构的帖子;采用动态反馈步长,实现了自适应话题重构;并使用新旧话题模型加权的方法,减少了话题模型重构误差。实验表明:SA-MBLDA方法的追踪性能优于基于LDA模型的追踪方法。