论文部分内容阅读
针对电信大数据在流动人口统计中的处理需求,采用Intel?Hadoop发行版,设计Hive数据仓库并进行优化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等可在10分钟以内完成,聚合统计如join、group by等可在30分钟左右完成,能有效支撑大数据环境下的流动人口统计和监测。