论文部分内容阅读
在被誉为“信息时代”、“知本时代”的21世纪,信息技术高速发展,知识经济愈演愈烈;人们积累的各式各样的数据、信息爆炸式地增长;数据挖掘学科应海量数据处理的局势而生,举世瞩目,并且不断衍生出新的子学科,如涵盖Web内容挖掘、Web结构挖掘、Web用法挖掘三个领域的Web挖掘。
数据挖掘的兴起,使传统的数据处理与分析学科——统计学面临严峻的挑战。传统的统计学方法在面对新的数据处理实践应用时显得力不从心,许多学者在统计学方法上艰苦探索,寻找突破。本文试图另辟蹊径,提出,深入剖析统计学经典思想在数据处理实践的作用点,以统计优化的理念指导解决实际问题的过程,是更有巨大价值的工作。
本文以一个国际性大型企业的网络广告效益分析系统的设计为例,论述统计思想对于类似的Web用法挖掘系统设计的指导作用、优化意义。本文第三章集中描述了此系统的设计过程,提出基于统计优化的高效数据采集模型及其架构下的Maxmini信息元模型、IP聚类模型、概率批提交模型,优化与可扩展的数据仓库存储模型,OLAP冗余设计模型;并构建评估模型,量化地对比了统计思想指导的网络广告效益分析系统与商业应用中常见的解决方案的实施效果。本系统的设计全过程贯穿着实施策略的创新,和对全局优化的追求。