基于云计算的日志挖掘系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hao8035
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化进程的不断加快,信息量不可避免呈现出一个爆炸式增长的趋势。如何有效应对由此产生的海量数据存储与计算的挑战,使得云计算成为解决这一难题的一个重要手段。基于云计算的日志挖掘系统利用云计算的方法,通过分析和挖掘搜索引擎的海量用户日志,对其进行复杂的多维度映射和交叉计算,转化为数据仓库中各维度统计数据,搭建起了数据挖掘的平台。得到的搜索引擎网站的十三个具体流量指标,能通过网站流量的变化,为网站运营提供分析的基础,以及为产品、业务、决策做支撑。按软件工程的方法,首先对系统进行了业务和需求分析,明确了日志挖掘系统的四项功能需求。然后进行了系统的总体设计,给出了系统的流程框架,提出了将系统分为日志预处理、日志分析统计作业、联机分析处理三个模块来进行设计与实现。在系统设计中分别对各个数据模型、XML配置、维度和事实表以及维度映射和交叉规则的设计做了详细的分析说明。在系统的实现部分,给出了日志数据装载过程、ETL过程的实现,维度解析器和各个指标算法的实现,以及数据仓库对多维交叉分析的解决方案的实现。特别是对基于Hadoop云计算的指标算法实现给出了详细的实现流程。通过对云计算技术、Hadoop的Map/Reduce编程框架、数据挖掘以及数据仓库的联机分析处理等相关知识的应用,给出了一个基于云计算的日志挖掘系统的开发实例。
其他文献
经过四十多年的发展,以计算机技术和公路设计理论为基础的公路CAD技术已由最初的单纯完成设计计算发展到今天的计算绘图一体化,在缩短公路设计周期、提高公路设计效率方面发挥
《查泰莱夫人的情人》是西方十大情爱经典小说之一,该小说因其严肃的寓意,生动精辟的写作手法和细腻深刻的心理描写而成为经典。拉康的凝视理论有助于读者解读文学作品中人物的
组织工程支架材料在组织工程研究中起中心作用,不仅为特定的细胞提供结构支撑作用,而且还起到模板作用,引导组织再生和控制组织结构。寻找一种既有良好生物相容性和生物降解性又
<正>2012年11月6日,由美国辉瑞公司开发的托法替尼(tofacitinib)柠檬酸盐(商品名:Xeljanz)被美国食品药品管理局批准上市,该药用于对氨甲喋呤治疗应答不充分或不耐受的中至重
β-分泌酶是近年来发现的治疗老年痴呆症的新靶点。抑制β-分泌酶的活性能从上游控制关键致病因素β-淀粉样多肽的生成,从而达到治疗老年痴呆症的目的。该文对β-分泌酶抑制
<正>寻得桃园龙泉山,桃红又是一年春。正值三月芳菲始。在这美好的时节,踏着春风,前往龙泉桃花山,这里15000亩桃花正竞相绽放。沿着蜿蜒崎岖的道路向山上行进,两旁桃枝斜出,
任务驱动教学法提出由表及里、逐层深入的学习途径,便于学生循序渐进地学习信息技术的知识和技能,符合计算机系统的层次性和实用性。在实施任务驱动教学法时,教师要注重情景
当前农业产业链管理理论逐渐被融入到现代农业产业管理中,各个行业都运用农业产业链管理理论进行了实践,茶叶产业也不例外,产业链不仅可以整合整个链条资源,提高资源利用率,
教育实习是高等师范院校教学过程和教学计划的有机组成部分,也是对师范院校教育教学质量和办学方向进行全面检查的有效手段。但地理教学实习的现状却存在很多问题,影响着地理
以阿司匹林为起始原料 ,在二环己基碳二亚胺 (DCC)和 4 二甲胺基吡啶 (DMAP)存在下 ,与间羟基苯甲醇进行酯化反应 ,生成 (2 乙酰氧基 )苯甲酸 (3 羟甲基 )苯酯 ,再经硝化反