基于Hadoop的短文本聚类算法的研究与应用

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:sksliuxin6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从互联网开始普及,人们就身处在一个信息爆炸的时代,人们对待生活、工作的思维方式开始逐渐在改变。在Web2.0的UGC(User Generated Content)时代,社交网络平台作为互联网发展的一个重要分支,成为了人们很重要的沟通、交流和营销的公开平台。社交网络平台上每天产生的数据是海量的,如何运用好这些数据宝藏,成为了一个热门的研究课题。  在数据分析方面,传统的统计抽样方法在面临海量的快速增长的数据时显得过时和力不从心,利用全体数据而不是部分抽样的数据成为了新的研究方法。为了达成该目的,仅依靠硬件的更新提速来提高机器的运算能力是无法完成的。因此,如何巧妙地运用云计算等弹性计算架构成为了人们关注的问题。社交网站作为UGC时代的支柱领域,每天都有海量的数据产生,如果能运用好这些数据,将是一笔巨大的财富。  论文以目前新浪微博平台为研究对象,针对其在文本聚类和话题文本推荐上的不足,研究了文本聚类算法和分布式技术,改进了聚类算法和相似度计算公式,实现一个基于分布式的短文本聚类,并将聚类的结果根据用户的输入进行文本推荐的应用。论文的主要工作如下:  首先,研究Hadoop平台下的HDFS、MapRedue和HBase三大基于Google核心技术实现的开源项目。包括Hadoop平台的优点、HDFS的读写流程、MapReduce的编程模型和HBase的结构。  其次,阐述利用网页爬虫与微博API两种不同的微博数据抓取方式的原理并对比其优缺点,数据的预处理方法以及根据特征权重表示为向量空间模型的方法,介绍了相似度计算方法及其改进、K-means聚类算法和Single-Pass聚类算法的原理以及聚类算法选择,并对Single-Pass算法进行改进,设计了一个测试实验验证改进后的聚类算法和相似度计算方法的改进效果。  最后,在Hadoop平台下,使用改进后的Single-Pass聚类算法和相似度计算方法,对抓取的海量微博文本进行分布式聚类,并对用户输入的微博文本进行相似的微博推荐。  实验表明,论文使用的技术方法是有效可行的,可以较为准确地识别出微博文本中的关键话题进行相似的微博文本推荐,且对比新浪微博平台自带的搜索工具后,发现微博平台的搜索工具无法完成相同的功能,因此论文使用的方法技术具有一定的实用性、新颖性。
其他文献
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构概念格通过Hasse图来表现出概念之间
人脸识别是图像处理和模式识别的研究热点之一,与识别其它生物特征相比,它具有方便快捷、隐蔽性好、不需主动配合等优点,经过近些年地研究,已经取得了一定的应用成果。以往的
随着移动通信技术与无线宽带网络的的发展,移动互联网无论是在规模上还是在网络应用数量上都呈现指数级的增长。特别是进入Web2.0后,用户产生内容逐渐成为了主流而导致网络通
从20世纪60年代开始研究人工智能起,研究人员便对问答系统产生了浓厚的兴趣。目前,国外已经出现实用化的面向开放领域的英文问答系统。相比之下,对面向开放领域的中文问答系
数字签名技术是网络信息安全中一种非常重要的技术,其在电子商务中具有重要应用。而代理签名的出现,给出了一种在电子化的信息社会里权力委托的方法。由于代理签名在电子现金
许多世纪以来,思想家和科学家一直在试图理解人的精神现象是如何产生的或人脑是如何工作的。自从上世纪20年代被发现以来,脑电(EEG)就成为临床诊断和科学研究中最有用的工具之
我国是一个拥有丰富水资源的国家,流速仪被广泛应用与测量河流和海流流速。为了保证流速仪测量流速的准确度,每年都要使用流速仪检定系统对大量的流速仪进行一次重新检测,确定其
工作流技术是目前计算机应用领域的研究热点,在项目管理、制造领域以及业务流程重组中有着广泛的应用。工作流就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起
数字认证水印技术是数字水印技术的一个重要研究方向,它在帮助保持和验证数字图像等多媒体的内容方面具有重要的价值。数字水印技术作为新兴的研究领域,在过去的几十年中得到
随着科技的发展以及人们生活水平的提高,用户已不满足于普通的家电设备,对于自我保护的安防意识也逐渐增强。同时数字家庭与3C逐渐融合,三网(电信网、计算机网和有线电视网)