论文部分内容阅读
随着微博信息海量化的迅速增长,网络信息生态面临挑战。面对微博信息总量的巨大和用户矩阵稀疏的问题,目前主流的微博信息推荐主题模型LDA及其改良模型已难以实现海量非结构化数据的主题提取,从而使LDA模型在微博信息推荐过程中短文本处理能力差的缺点被放大,致使微博用户信息个性化推荐精准度不足,用户体验度与满意度下降,阻碍了微博的深入推广,也给舆情管控带来了不确定性。借助大数据处理技术的快速数据处理与非结构化数据处理优势,笔者将其作为微博信息预处理手段,以LDA主题模型为微博信息再次过滤方式,构建出了相对完善的微博信息推荐模型并予以了实证验证,并在此基础上提出微博信息管控的策略。论文首先论述了选题来源及背景和意义,详细阐述了国内外学者对于LDA主题模型的研究现状,分析出目前对于LDA主题模型的研究尚存在的主要问题,提出了未来个性化推荐主题模型LDA研究的三个主要方向,描述了本选题的主要研究内容和研究的技术路线,并且还介绍了本选题研究主要使用的研究方法和选题的主要创新点。同时,笔者还论述了社会网络、数据采集技术、数据预处理技术、大数据技术等相关基础理论。在上述研究的基础之上,笔者利用大数据技术处理海量信息的优势,探讨了大数据技术与LDA主题模型融合的可行性,构建出了微博信息采集、预处理、信息推荐三位一体的推荐模型。即利用爬虫程序实现微博信息的采集,借助分词技术、去停用词技术、大数据技术实现微博信息的预处理,通过LDA主题模型实现最终微博信息的精准推荐,实现在利用大数据技术对海量文本预处理的基础上基于LDA模型的微博信息推荐,解决微博信息推荐查全率和查准率差的问题。在模型构建完毕以后,笔者搭建出了实验环境,利用爬虫程序实现了微博信息的采集,分别验证了分布式节点的数量以及微博信息量的大小对于模型处理效率的影响,对比分析了大数据与LDA融合模型和原始LDA模型两类模型的性能。最后,笔者针对微博信息推荐模型的发展与推广提出了专业性对策与建议,为后续学者研究与平台推广打下坚实基础。通过Hadoop平台上的实证分析表明,大数据技术与LDA的融合模型可有效降低混淆度并且提升微博信息推荐精度,而增加分布式节点数量与微博信息量可有效提升模型的处理效率,有利于实现信息的个性化与定制化推荐,从而验证了融合模型的优良性能,为微博信息推荐精准化程度的提高提供了可能,为后续学者对于微博信息推荐的研究提供了一种新的研究思路。