论文部分内容阅读
随着Internet的飞速发展,网络已经成为对外宣传以及了解世界的窗口。万维网(World Wide Web)为人们提供丰富信息的同时,也留下了用户浏览页面时的大量访问信息。如何利用这些丰富的数据得到有价值的信息和知识就是我们研究的课题——Web数据挖掘。Web数据挖掘是数据挖掘技术在Web环境下的应用,是对文档的内容、可利用资源的使用及资源直接的关系进行分析,以发现有效的、新颖的、潜在有价值的、并且最终可被理解的模式和规则。Web数据挖掘根据所研究web对象的不同分为:Web内容挖掘、Web结构挖掘和Web日志挖掘三类。Web日志挖掘是Web数据挖掘中重要的研究课题之一,Web日志挖掘所研究的对象是Web日志数据,挖掘结果可以给用户提供个性化服务、网站优化、改善系统性能、电子商务网站确定用户群类、为领导提供决策支持。点击流(Click-Stream)就是指访问者在网络上持续访问时在Web服务器日志文件中“留下”的每一次点击。点击流的概念更注重用户浏览网站的全过程,一个点击流包含用户的多次点击,在日志文件中对应多条日志记录。通过采集用户在会话期间的点击流,可以用于了解用户都访问了哪些页面,在页面上停留了多长时间,按照什么次序访问的页面等等,从而为研究用户的兴趣提供有价值的资料,为商家了解用户需求,实时改变宣传营销策略,使经济效益最大化。对于生源日益紧张的高校来讲,如何通过网络平台更好的宣传自己,如何吸引广大考生的眼球逐渐成为当前高校招生的重头戏。对于招生宣传的决策层来讲,应该知道哪些地区的用户访问量较大,知道哪些信息点击次数多;对于网站设计者来讲,应该知道什么地方出现了性能瓶颈、安全漏洞,什么样的信息能吸引更多的用户访问等等,因此如何能够快速、准确的在“海量”的点击流信息中获取潜在的用户信息的技术成为了Web日志挖掘的一个重点。点击流数据仓库(Web日志数据仓库)是数据仓库的一个重要类型。点击流数据仓库的主要数据来源是web站点的点击流数据。点击流数据仓库建设的目的是通过收集、整理、转换这些数据,建立针对web点击信息的各种维度,并结合数据挖掘等技术,进而分析网站用户的行为的潜在有效信息,从而为网站经营者提供决策支持。SQL Server 2005是微软下一代的数据管理和商业智能平台,在商业智能方面,SQL Server 2005提供了三大服务,分别是集成服务(SQL Server Integration Services, SSIS)、分析服务(SQL Server Analysis Services, SSAS)和报表服务(SQL Server Reporting Services, SSRS)。ETL是指将数据从业务系统中抽取(Extraction)、转换(Transformation)、装载(Loading)的过程。ETL目的就是对企业的异构数据源中的分散的、标准不统一的数据进行抽取、清洗、转换然后加载到数据仓库中。本文基于点击流的web日志挖掘研究与应用是从Web日志挖掘技术的理论与方法展开研究,研究对象是建立在安徽国防科技职业学院网站系统之上的web日志数据,结合招生网站的实际数据,并对这些数据进行预处理后建立一个实验性点击流数据仓库,旨在实现以Web日志为数据源,获取用户潜在信息,为高校如何通过网络高效的推广宣传自己、高校生源情况分析以及为网站管理者进行网站结构优化提供决策支持。本文主要研究的内容如下:(1)使用.NET语言对点击流数据源进行各种预处理,为点击流数据仓库的建立提供可靠的数据准备,如:日志过滤、用户识别、会话识别等。对于用户识别,本文综合考虑各种方法的优缺点,采用基于Agent、Session和IP地址的方法。(2)数据挖掘技术的方法、工具有很多,SSIS (SQL Server Integration Services)是SQL Server2005中的一个全新的组件,它提供了构建企业级数据整合应用程序所需的功能和性能且具有可视化调试等特点。本文选择采用基于SSIS的数据仓库ETL工具完成数据的抽取、转换和加载工作,并将其应用到了安徽国防科技职业学院的招生网站的决策支持和技术分析的应用中。在基本维度的处理上,使用“有道”域名分析接口解决了IP地址到地区维度的映射。(3)利用Analysis Services 2005创建了多维数据集,并部署多维数据集到Analysis Services 2005数据库中;最后完成了BI前端展示。