基于Hadoop的微博热点信息的聚类提取应用研究

来源 :内蒙古农业大学 | 被引量 : 2次 | 上传用户:qinlh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时至今日微博已经成为人们生活服务和娱乐休闲信息分享和交流的主要平台。通过从海量微博数据中快速有效的聚类提取出相关的政治、社会、民生、医疗等有价值的微博热点信息,对于广大微博用户、政府机关以及企业,更加有效地关注舆情的发展态势,进一步对舆论引导和对事态的把控具有重要意义。然而,随着微博数据和用户信息的爆炸式增长,用户要在海量的微博信息中找到感兴趣的热点话题越来越困难。因此,微博热点信息的聚类提取系统也成为微博平台上不可或缺的模块之一。本研究从实际应用的角度出发,主要解决的问题是如何高效、快速、准确地从微博文本库中聚类提取出用户感兴趣的热点信息,以满足用户的需求。本论文的主要研究工作有:1.本文对微博文本信息特征以及微博的交互性特点和特有架构进行了分析和研究,并且根据微博发表的时间,提出了微博随着发表的时间衰减度算法。2.对主题概率模型的思想进行了分析与研究,并且基于概率主题模型LDA的概率主题计算公式提取出概率主题集合,进行系统建模,同时将TF-IDF算法、及改进算法和余弦系数相似度算法,应用到微博热点信息的聚类提取计算中去,实现了微博热点词元和热点话题的提取。3.通过将发表该条微博的用户在当前时刻的总关注人数和某个话题在各条微博中的出现概率值乘积的计算结果作为该话题的热度值,同时借鉴了一种有效的关联度算法,将热点词元和热点话题进行关联。将最终的关联结果推荐给用户。4.详细地研究了Hadoop云计算平台的关键技术,通过基于Hadoop云计算平台进行仿真实验,将实验提取出的微博热点话题结果应用准确率、召回率以及F1值等评价标准对进行了验证,证明了算法的有效性。同时,实验结果表明在hadoop平台下可以有效的解决处理海量微博数据的性能瓶颈问题,充分利用分布式并行及虚拟化技术的优势,显著提升运算效率。
其他文献
伙伴选择在虚拟组织的生命周期中的作用是非常重要的,是保证虚拟组织成功把握市场机会,快速应对市场变化,和保证虚拟组织安全性的重要步骤。目前这方面的相关研究也已成为虚拟组
随着我国经济的飞速发展,对各种能源的需求与日俱增,能源短缺问题日渐突出,尤其是对石油的需求更为紧迫,如何解决我国石油能源紧缺问题是许多科学工作者正在潜心研究的重要课题。
随着嵌入式设备的大量普及、移动计算的迅猛发展、实时处理技术的广泛应用,新的应用需求对传统数据库技术提出了挑战,应用于嵌入式环境的实时移动数据库管理系统已经成为数据
油田开发的目的之一就是获得最大利润,但在油田开发过程中存在着很大的风险,为了达到低成本高收益的目标,必须对油田开发过程进行风险分析,确保在减小风险的同时还要得到最大利润
分布式拒绝服务攻击是当今网络安全领域难以防御的攻击之一,它具有实现攻击容易、追踪困难、产生后果严重等特点,已经成为影响网络安全运行的一大难题。对分布式拒绝服务攻击
学位
随着世界范围内旅游业的发展、视频采集设备的普及化和网络视频共享服务的流行,旅游视频的数量和受众呈激增之势,对旅游视频标注需求也与日俱增。但对旅游视频标注涉及到了两个
随着网民的增多和互联网的大规模普及,大量文本数据的积累变得越来越容易,从而导致文本信息搜索困难和文本资源利用率低下。文本聚类作为一种无指导的文本自动归类技术,能够协助
随着网络技术和信息的应用越来越广泛,信息量快速膨胀,信息的重要性也越来越高。数据——信息的表现形式,它的完整性和安全性已经成为数据安全领域的热点研究问题之一。为了
在石油勘探开发研究中,科学可视化技术将储层模型中大量抽象的、非直观的数据,以等值线图、井位图、渐变地形图、矢量图和影像图等形象、直观地表达出来。研究人员可以借此了解