基于Hadoop云计算平台的文本处理算法的研究与改进

来源 :天津科技 | 被引量 : 0次 | 上传用户:aulifo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。
其他文献
创业家族创业能力的高低关系到家族创业的成败,但现有研究忽视团队层面的创业能力;能力的形成离不开资源的支持,但二者的转化过程依然不清晰;创业伴随着深刻的情绪卷入,但情
<正>平凡的穿着、平和的语言、平静的神态,娓娓道来的故事,让人感觉如沐春风。她叫孙雅艳,现任上海师范大学谢晋影视艺术学院党总支副书记、副院长,同时兼任2013级本科生和研
期刊
<正>在螺杆压缩机发展的第一世纪最后十年中(1968~1977),对转子的型线研究取得前所未有的成果。目前这些研究工作仍处于进行之中,它主要涉及如下三个专题: 1.对转子螺旋部分的
近年来,西安在彰显城市特色上取得了不少成绩,但仍存在城市历史文化氛围不够浓郁、城市整体景观丧失古城风格、城市文化名片不够响亮等问题。为加快建设具有历史文化特色的国际
报纸
对阳极电解催化降解有机污染物的机理进行了研究。结果表明 ,在电解过程中能够产生氧化能力极强的羟基自由基 (HO· ) ,使有机污染物以间接氧化的方式降解。用非线性最小二乘
<正>保定中法供水有限公司是1997年开始设计施工,2000年并网供水的一个现代化供水企业,采用常规处理工艺,设计供水能力26万m3/d。其原水取自西大洋水库,原水浊度常年处于1-10
越秀区东山实验小学位于广州市五羊新城商贸小区,其前身是五羊二小和五羊三小。为整合教育资源,探索学校发展的新模式,2003年两校合并,更名为东山实验小学。学校分东、西两个
<正> 佛里德雷卡纤维素厂在1950年代早期就开始与丹麦农民合作。现在该厂年产量为32,000吨。工人只有110人。工厂位于Fred-ericia,是丹麦中部的一个小镇。工厂的位置保证了周
距离判别理论中,通常采用重心距离来定义类与类之间的距离对待判样品进行判别。对新样品实行判别,将其归入系统聚类形成的分类,如果仍采用重心距离判别法,会由于没有与原有聚