基于MapReduce的文本层次聚类并行化

来源 :计算机应用 | 被引量 : 0次 | 上传用户:xncjdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法.将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度.实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性.
其他文献
目录$$第一章 总则$$第二章 海水浴场的设立$$第三章 海水浴场的管理$$第四章 法律责任$$第五章 附则$$第一章 总则$$第一条 为了加强海水浴场管理,维护海水浴场秩序,保障人身
报纸
研究了番木瓜的叶片愈伤组织的形成,并进一步诱导分化,离体培养成完整的试管植株,这对深入进行体细胞突变育种,以及抗病毒品系筛选和种质改善或耐贮藏等基因转化,提供了有用的技术
1引言煤热解产生的富氢气体经过富集和纯化,得到的氢气既可作为氢燃料电池或航空航天发动机的燃料,也可以作为化工原料,还可用于改善其它气体燃料的燃烧性能等,用途广泛。所以,用
糖尿病肾病(DN)是糖尿病慢性并发症中常见的微血管病变,是引起糖尿病患者死亡的主要原因之一。DN一旦进入大量蛋白尿期将很难逆转,如何有效控制早期DN是目前亟待解决的问题。西
将栉孔扇贝Chlamys farreri、菲律宾蛤仔Ruditapes philippinarum、竹蛏Solen strictus的内脏、肌肉组织分离,匀浆后与毒藻Alexandrium minutum提取液进行48 h体外培养,比较
应用蔬菜移栽机械化技术可减轻蔬菜移栽作业劳动强度,提高移栽作业质量和效率,提高蔬菜移栽机械化水平,其经济效益和社会效益均十分可观。该技术所使用的蔬菜移栽机按自动化程度
报纸
为探索高空远程滑翔UUV空气动力学基本特性,针对高空远程滑翔UUV详细设计了风洞试验模型,并通过试验分析了攻角和导流罩对高空远程滑翔UUV亚音速滑翔时升阻特性的影响,得到了
教学现场课堂教学效益的提升,始终是教师个人发展的重要需求之一,而教师在不断反思教学过程时,可以获取最佳的行为方式。但问题存在于反思的途径,即如何寻找合适的工具,进而
近年来中国劳资纠纷快速增长,非工会参与的劳工集体行动频发,这使得工会职能成为社会关注的焦点。为此,基于中国劳动力动态调查数据(CLDS),本文使用工具变量法和干预效应模型
目的介绍改良的髂腹股沟入路治疗髋臼前壁和前柱骨折的方法和效果。方法2010年1月--2012年10月收治的髋臼前壁和前柱骨折患者26例为研究组,2008年1月—2009年收治的相同患者22