论文部分内容阅读
随着网络技术的发展,电子政务越来越被视为超越常规公共服务的手段。各国都在研究如何改进政府网站以及在线服务的质量,进而提高政府的效率,增加政府的公信力。论文结合我国政府网站的发展现状,基于Hadoop技术,提出通过在分布式环境下收集并分析网站的访问日志来获取用户的兴趣点与行为模式,进而为政府网站的建设与维护提供数据支持,以达到提高政府网站服务质量,提升公民满意度的目的。本文从以下几个方面给出了研究思路和方法。(1)详细分析了目前我国电子政务的发展现状,并总结了电子政务存在的优点和缺点;指出了电子政务中日志分析的重要性;通过对国内外与电子政务日志分析有关的技术和方法的研究,提出了本文的研究目标和框架。(2)从分布式数据存储和处理的角度,介绍了当前比较流行的几种分布式技术,包括:两种分布式文件系统(GFS和HDFS),一种并行计算编程模型(MapReduce)。(3)针对系统需求,利用模块化思想将系统划分为日志收集、日志存储和日志分析等功能模块;并对系统的总体结构进行了设计,提出了适合政府网站及其下属部门网站日志集中收集的层次架构,并对各个层的功能进行了定义。(4)从本地日志收集和分布式日志收集两个方面论证了日志收集的具体实现方法。本地日志收集方式采用目前常用的Javascript标记日志收集方式,并结合Web Beacon方式实现日志跨域存储;分布式日志收集则采用开源的Apache Flume分布式日志收集系统进行实现。(5)分别对日志的分布式存储和分布式处理模块的实现进行了讨论。通过对政府网站日志的存储需求进行分析,结合HBase的数据库的特点,选择HBase分布式数据库作为政府网站日志的存储平台,并对日志数据库的表结构进行了设计;采用MapReduce模型,结合HBase数据库提供的接口,实现了分布式日志分析处理。