【摘 要】
:
在信息爆炸的大数据时代,人们的生活、工作和思维方式逐渐在改变。对于数据分析而言,传统的抽样方法有悖于数据量的增长态势,使用全体数据取代随机抽样成为时代的发展需求。
论文部分内容阅读
在信息爆炸的大数据时代,人们的生活、工作和思维方式逐渐在改变。对于数据分析而言,传统的抽样方法有悖于数据量的增长态势,使用全体数据取代随机抽样成为时代的发展需求。为了实现这个目标,仅仅依赖摩尔定律来提升计算性能是远远不够的,云计算等弹性计算体系架构逐渐受到关注。社交网络作为互联网发展史上的一个重要和成功的应用领域,也是大数据时代的重要数据来源之一。这不论对于社交网络服务提供商自身还是对其商业伙伴,乃至对于社会科学研究领域而言,都是巨大的财富。本文针对目前国内主流微博网站在自动话题识别和归类上的欠缺,研究基于分布式聚类算法和信息检索技术,并结合语义相似度计算模型,实现一个能够根据内容对微博按话题聚类,并以此为基础向用户推荐相似话题微博的应用。论文的主要工作包括以下几个方面:首先,研究探讨MapReduce编程模型的基本原理,就开源框架Hadoop对其工作流程、容错和任务调度机制的实现进行分析,并探讨MapReduce用于大数据处理的核心思想和基本流程。其次,阐述k-Mean、Canopy两个经典聚类算法的原理以及它们在实际应用中的结合方式,同时研究算法并行实现的可行性及策略并基于MapReduce模型给予实现。最后,总结向量空间模型和语义方法在文本相似度计算上各自的优缺点,提出了一种综合TF-IDF和语义的文本相似度计算方法,详细论述该方法的思想及计算过程,将此作为微博文本聚类的距离度量依据。实验结果表明,论文中的技术和方法是切实可行的,能够较为有效地识别出微博中的话题并给予用户特定的推荐和反馈,从而改变用户浏览微博的习惯,具有一定的实用性。
其他文献
2011年年底,我国明确了“牢牢把握发展实体经济这一坚实基础”作为当前的发展方向。实体经济想要获得发展,需要依靠其自身投资活动带动企业价值最大化,然而,实际情况却是在2009年
伴随着社会经济的高速发展,国内高速公路交通网络在逐步的完善,为货运以及中短途客运做出了重要的贡献,但是在高速公路网络运输中仍存在空载率高的问题,造成了资源的浪费。车辆合
随着各城市地铁的大量兴建,由于地铁隧道选线及埋深的限制,区间隧道盾构掘进施工时,遭遇桥梁桩基础、建筑物桩基础、地下连续墙等障碍物的几率越来越大。采用盾构机直接切削
子宫内膜透明细胞癌(ECCC)是子宫内膜癌的特殊病理类型,其发病率约占子宫内膜恶性肿瘤的2%~4%[3],五年生存率仅有52%[4]。而且近年来其发病有增高趋势[1]。又因ECCC恶性程度高,早期
由于书法的生存环境以及书家的创作理念发生了变化,导致了书法的欣赏方式已经由阅读变成了观看,尤其是一些大尺幅的行草书作品,首先要突出一种宏观的视觉效果,而不是再像古代
古代文学史以诗歌的成就最高,诗歌是文学殿堂中的最高形式,特别是古代抒情类诗歌,它以凝炼、载情的语言勾画出一个瑰丽多姿的世界,熏陶着一代又一代人的情操。古代抒情类诗歌与其
据中国新闻教育学会的一项调查显示,新闻主媒介已不再将新闻类专科毕业生纳入其视野,对本科毕业生的需求也已趋于饱和。高职院校新闻传播类专业应如何设置以突破当前发展困境?从
十九世纪末二十世纪初,西方绘画发生了革命性的变革,现代主义绘画以一种不同以往的新姿态出现在人们的视野,艺术思维从传统转入现代。随着现代主义绘画态度的转变,不可避免的是绘
随着科技和大众传媒的高速发展,语言的主导角色逐渐的弱化,视觉交流在多模态话语中充当着越来越重要的角色。传统的基于语言之上的话语分析已经无法跟上时代的步伐。新的时代在
垃圾渗滤液中含有大量难降解有机物及多种有害组分,属于难处理废水。本文采用高铁酸钾氧化处理垃圾渗滤液中难降解有机物,在此基础上,投加无机盐和相转移催化剂,以增加高铁酸