基于Hadoop云计算平台的文本聚类并行化研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:kuaileyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的普及,网络文本数量呈爆炸式增长,在大规模数据中快速高效发现有价值的信息具有重要意义。文本有效知识发现是数据挖掘领域一大重要分支,使用合适的文本表示模型表示文本,对文本进行聚类分析,将语义相似的文本实现聚类。为改善单机串行编程模型对海量数据聚类效率不理想的问题,将大数据技术与文本聚类相关技术结合。对文本数据实现分布式存储和计算,基于MapReduce编程模型实现文本向量并行化、利用聚类算法并行化聚类。MapReduce框架思想可简要概括为先切分后合并,切分文本数据集为数据块,分布式存储到HDFS(分布式文件系统),集群中的每个工作节点并行对切分的数据块进行处理,并行处理结果合并输出到HDFS。传统k-means聚类算法是解决聚类问题的典型算法,处理大数据集具有较好的伸缩性和扩展性,但该算法初始中心选取随意,算法每次运行较不稳定,为解决上述问题,基于密度分割思想与抽样思想相结合优化选取初始聚类中心,对数据集并行采样,对样本引用最大最小值方法搜索查找最佳候选聚类中心,并行合并数据对象,根据候选聚类中心的密度,消除噪声,将最密集的对象与指定范围内包含的剩余对象合并为簇,簇均值作为初始中心优化选取方法的输出结果。将选取出的初始聚类中心替换k-means算法随机选取的中心点,聚类算法并行化,通过实验证明改进k-means算法有效减少迭代次数。以聚类质量和效率为评价方法,对比分析基于初始聚类中心优化的k-means并行算法和其他聚类算法的聚类结果,本文改进的k-means并行算法在聚类质量、效率、并行性能方面具有优越性。
其他文献
摘要:形势与政策课是高校思想政治理论课的重要组成部分,受到党中央、国务院的高度重视。但在现实教学中,教学质量不高。如何提高职业院校形势与政策课教学效果,本文从端正学生学习态度、培养学生竞争意识、创新教学方法、加强教学资料的积累和利用网络教学等五个方面来展开论述。  关键词:高职院校;形势与政策课;教学效果    形势与政策课是高校思想政治理论课的重要组成部分,在高校“两课”中占有十分重要的地位。下
研究以总段作为中间产品,改进先行分段制造、预总组、单元制作、总段建造等生产工艺流程,以达到提高总段和下水完整性,压缩船台、船坞周期的目的。
摘要:课堂教学是德育主阵地,教师应把握教学环节,创设教育氛围,寻求德育的有效途径,将德育生活理论与实践生活相结合,不断延伸和深化课堂教育生活化的内涵,真正实现德育源于生活,回馈于生活。  关键词:生活化课堂;生活化德育;实践;深化    生活德育论是寓于生活教育之中的,也是富有现代价值的。生活教育理论是陶行知先生教育思想的精髓与核心。生活即教育,陶老先生认为“生活教育包含德育,德育源于生活”,并强
在时代因素的促动下.职业学校数学教学应如何寻求教学模式上的精进,这是我们必须深入思考的一个问题。面对个体差异明显的职校学生。数学教师需要科学合理地设计教学方案。本文
校园文化是社会文化的一部分,是学校内部形成的特定文化环境和精神氛围,是学校环境、规章制度、文化氛围、行为方式、活动形式等要素的总和。校园文化的建设包括如下几个方面:一
说课是介于备课和上课之间的一种教研活动,它为备课提供了理论依据,并为上课提供了理论指导.做好说课教学研究,能有力地促进高职英语教学活动和教研活动的和谐统一.
随着课程改革的深入,培养学生的数学语言表达能力,关注学生说理的条理性、逻辑性是数学教学的一个重要方面。在实际教学中,学生数学语言的表达往往会出现下列一些情况:
对于煤炭企业来说,物资采购是一个必不可少的环节,一个企业或大或小,都会有相应的采购部门以及相应的采购系统在为整个企业的,惯利运行提供一定的保障。然而,在采购的构成当中,供应