论文部分内容阅读
云计算是当前学术界和产业界的热点,各大IT公司如Google、Mircosoft、IBM以及Amazon等都不失时机的加入到云计算的研发中,推动云计算的快速发展和普及。Hadoop是一个开源云计算平台,用于在集群上对海量数据进行并行处理,已成为很多大型互联网公司计算架构的核心部分,比如Google、Yahoo、FaceBook、LinkedIn以及Twitter等。
在互联网时代,信息和数据成指数级增长,为了更有效地掌握互联网动态,以便监控或开展针对性的业务,必须对网络上的用户行为特点进行分析。而为了找出哪些站点受欢迎、哪些话题更流行、哪些书更热卖以及什么形式的广告更吸引入等,都需要对TB或PB数量级的数据进行处理,而现有的工具己逐渐不能胜任如此庞大的数据处理任务。
本文正是基于此背景开发了基于Hadoop平台的用户行为分析系统,主要针对海量HTML页面的分析处理。本文首先对MapReduce并行框架、Hadoop云计算平台、分布式爬虫Nutch、Lucene、文本分类等进行了深入的学习和研究,在此基础上提出用户行为分析系统的设计方案,并完成了MySQL数据库与Hadoop的集成、分布式多线程网页抓取与正文解析、基于Lucene的中文分词以及基于MapReduce的改进TF-IDF权值计算方法,最后采用JSP技术显示系统的分析处理结果。