基于Map-Reduce分布式日志信息处理研究与实现

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:lwt159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,电子商务网站每天需要处理的日志信息多达几terabyte。如何廉价并且高效地去除日志中的暂时无用信息、提取日志中有用信息是目前我们面临的一个困难。论文基于Map-Reduce并行处理平台详细介绍了如何处理海量日志信息,经过日志信息预处理、用户聚类等处理过程,最终根据用户的访问商品类目的情况对用户进行了聚类。通过使用hadoop云计算平台有效地避免了传统单机处理大规模web日志数据运行时间过长或者运行不出结果的问题,低廉并且高效实现了大规模原始数据的预处理及聚类。本文以web用户访问商品的日志信息为数据源。它使用了Map-Reduce思想,该思想共分为两个阶段,Map阶段信息提取; reduce阶段进行数据求和。详细介绍了并实现了基于Map-Reduce超大文件数据间的join操作及改进型join操作。然后对上面的处理结果建立向量空间模型,形成了用户访问类目的向量空间模型。在聚类研究过程中,将SOM的自适应思想与模糊聚类思想结合在一起,在Map-Reduce平台上实现。由于传统模糊聚类具有运行时间长、运算复杂等特征,所以当数据量大的时候往往无法得出结果。论文将自适应的思想应用到模糊聚类,能够有效避免无限次循环。基于Map-Reduce平台能够有效解决超大数据量计算的问题。因此该思想能够解决传统模糊聚类存在的问题。
其他文献
模切在贺卡印制中起着重要作用,由于贺卡产品本身尺寸较小,往往一个印张上要安排印刷多张贺卡,且为充分利用材料,还要在上面搭印许多小配件,所以对贺卡的印后模切技术要求较高。与
绞吸式挖泥船是现代疏浚工程中应用最为广泛的工程船舶之一,它集土质挖掘、沙水混合、泥浆输送等疏浚工序于一体,具有较高的施工效率和良好的适应性,主要应用于沿海、内河的
黄山市新力油墨化工厂是黄山永佳(集团)有限公司的全资企业,专业从事印刷油墨、精细化学品的开发和制造,是省级高新技术企业、国家发展计划委员会高技术产业化示范项目实施单
在圆满落幕的“首届深圳国际文化产业博览会”上,燕京行以其规模和实力及参展产品的多样化、先进化,吸引了众多目光。燕京行生产的大幅平面扫描仪,CTP系统、激光照排机;代理美国E
一家用胶印生产彩盒的企业,添加了一台单纸张凹印机之后,会发生哪些变化?答案是:单凹机给客户带来出色的印刷质量和增值的彩盒。
近年来,随着经济、社会的快速发展,我国的舞蹈教育也突飞猛进。迅速发展并大面积普及的舞蹈教育,特别是高等舞蹈教育,正在为越来越多酷爱舞蹈的青少年,提供着以舞为业的机会。然而
报纸
条码技术自20世纪70年代初问世以来,发展十分迅速,仅20年的时间,就已广泛应用于商业流通、仓储,医疗卫生、图书情报、邮政,铁路,交通运输.生产自动化管理等领域。条码技术的应用极大
工程管理过程中最重要的内容就是工程安全问题,所以安全保护措施是各级工作管理单位都关注和定期巡查的内容,笔者就工程安全管理及保护措施方面的问题谈谈自己的看法。
2014~2015年间,发生了狼牙山五壮士名誉侵权案。在案件审理过程中,一些网络舆论和专家学者对维护英雄名誉案胜诉毫无信心,某些部门态度冷漠,不予协助。在法院依法判定被告侵
[目的]分析北京某肿瘤医院门诊患者就诊情况,为提高门诊服务质量提供参考。[方法]查阅该肿瘤医院信息管理系统,对2009~2013年到医院门诊就诊的患者相关数据进行分析。[结果]