基于云计算的文本聚类算法研究

被引量 : 0次 | 上传用户:PLMM1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和通讯网的迅猛发展,网络文本已经成为信息的主要载体以及人们生活中不可或缺的主要信息来源。一方面,伴随着Web2.0时代的到来,网络上每天都在持续不断地产生大量的文本数据,并且这个速度远远地超过了人们对信息的利用能力。如何从这些大量的文本资源中获取有价值的信息和知识已经成为了一个亟待解决的重大问题;另一方面,普通的个人计算机由于硬件与软件的瓶颈限制,对于这些规模海量、多源异构、高噪声、强时效的数据根本无法在可承受的时间范围内进行处理分析,并且得到决策者需要的知识。而云计算模式的出现使得高性能的计算资源、软件资源、硬件资源和服务资源得到共享,现在已经成为信息领域的研究热点之一。因此,研究基于分布式平台的大文本集的聚类算法成为当下数据挖掘领域的一个研究热点。在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。
其他文献
通过对中西方文化翻译理论的研究,从口译的角度切入,对其文化缺位现象进行剖析、研究,并针对这一客观事实提出在口译实践中进行文化补偿的必要性和可行性及具体的应对策略。
目的探讨结直肠癌手术治疗热点问题。方法对93例结直肠癌患者临床资料进行回顾性分析,指定具有专业知识及丰富经验的临床医生完成所有患者外科手术操作,分析内容包括手术方法
目的探讨α-酮酸联合低蛋白饮食对终末期肾脏病腹膜透析患者的营养状态、肾功能的影响。方法 63例终末期肾脏病腹膜透析患者随机分为常规蛋白组(A组),低蛋白组(B组),低蛋白+
商标的显著性是指商标标示商品或服务的出处并使之区别于其他同类商品或服务的属性。判定商标的显著性既是商标立法实施前提,也是商标纠纷裁决的基础。为推动世界贸易的发展,
β淀粉样蛋白(Aβ)沉积是阿尔茨海默型痴呆(Alzheimer’s disease,AD)的主要病理特点,学习记忆功能障碍是其行为学的重要变化。为探讨Aβ沉积对学习记忆的影响,本实验用1.5个
汉语连词教学在对外汉语虚词教学中一直都是一个十分重要的部分。有的时候我们会发现一些留学生汉语水平虽然已经达到了熟练的程度,但是表达出的句子却缺乏逻辑性和连贯性。
弱电网下系统的电压稳定裕度较低,而风电场的故障穿越性能对系统的暂态电压稳定性有显著影响。传统的双馈风电机组故障穿越控制方法都是基于适用于强电网的定功率控制,不利于
随着中国电信业的重组与3G、4G牌照的发放,各运营商都对各自的VOIP、3G/HSPA以及LTE+移动宽带业务进行相应的部署。传统的传送网技术已经不能满足现有业务的发展需要,分组传
智能手机已经成为人们必不可少的移动设备,与此同时,这也为黑客部署恶意软件和传播病毒提供了温床。智能手机上的恶意软件数量呈现爆炸式增长,目前迫切需要一个安全分析与检
五轴联动数控加工技术和高速切削技术是为了解决复杂零件的高效高精制造难题而发展起来的,是目前先进制造领域大力发展的两大趋势。本文在国家科技重大专项“航空航天典型零