基于点击流的Web数据挖掘研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:shliukan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,网络已经成为对外宣传以及了解世界的窗口。万维网(World Wide Web)为人们提供丰富信息的同时,也留下了用户浏览页面时的大量访问信息。如何利用这些丰富的数据得到有价值的信息和知识就是我们研究的课题——Web数据挖掘。Web数据挖掘是数据挖掘技术在Web环境下的应用,是对文档的内容、可利用资源的使用及资源直接的关系进行分析,以发现有效的、新颖的、潜在有价值的、并且最终可被理解的模式和规则。Web数据挖掘根据所研究web对象的不同分为:Web内容挖掘、Web结构挖掘和Web日志挖掘三类。Web日志挖掘是Web数据挖掘中重要的研究课题之一,Web日志挖掘所研究的对象是Web日志数据,挖掘结果可以给用户提供个性化服务、网站优化、改善系统性能、电子商务网站确定用户群类、为领导提供决策支持。点击流(Click-Stream)就是指访问者在网络上持续访问时在Web服务器日志文件中“留下”的每一次点击。点击流的概念更注重用户浏览网站的全过程,一个点击流包含用户的多次点击,在日志文件中对应多条日志记录。通过采集用户在会话期间的点击流,可以用于了解用户都访问了哪些页面,在页面上停留了多长时间,按照什么次序访问的页面等等,从而为研究用户的兴趣提供有价值的资料,为商家了解用户需求,实时改变宣传营销策略,使经济效益最大化。对于生源日益紧张的高校来讲,如何通过网络平台更好的宣传自己,如何吸引广大考生的眼球逐渐成为当前高校招生的重头戏。对于招生宣传的决策层来讲,应该知道哪些地区的用户访问量较大,知道哪些信息点击次数多;对于网站设计者来讲,应该知道什么地方出现了性能瓶颈、安全漏洞,什么样的信息能吸引更多的用户访问等等,因此如何能够快速、准确的在“海量”的点击流信息中获取潜在的用户信息的技术成为了Web日志挖掘的一个重点。点击流数据仓库(Web日志数据仓库)是数据仓库的一个重要类型。点击流数据仓库的主要数据来源是web站点的点击流数据。点击流数据仓库建设的目的是通过收集、整理、转换这些数据,建立针对web点击信息的各种维度,并结合数据挖掘等技术,进而分析网站用户的行为的潜在有效信息,从而为网站经营者提供决策支持。SQL Server 2005是微软下一代的数据管理和商业智能平台,在商业智能方面,SQL Server 2005提供了三大服务,分别是集成服务(SQL Server Integration Services, SSIS)、分析服务(SQL Server Analysis Services, SSAS)和报表服务(SQL Server Reporting Services, SSRS)。ETL是指将数据从业务系统中抽取(Extraction)、转换(Transformation)、装载(Loading)的过程。ETL目的就是对企业的异构数据源中的分散的、标准不统一的数据进行抽取、清洗、转换然后加载到数据仓库中。本文基于点击流的web日志挖掘研究与应用是从Web日志挖掘技术的理论与方法展开研究,研究对象是建立在安徽国防科技职业学院网站系统之上的web日志数据,结合招生网站的实际数据,并对这些数据进行预处理后建立一个实验性点击流数据仓库,旨在实现以Web日志为数据源,获取用户潜在信息,为高校如何通过网络高效的推广宣传自己、高校生源情况分析以及为网站管理者进行网站结构优化提供决策支持。本文主要研究的内容如下:(1)使用.NET语言对点击流数据源进行各种预处理,为点击流数据仓库的建立提供可靠的数据准备,如:日志过滤、用户识别、会话识别等。对于用户识别,本文综合考虑各种方法的优缺点,采用基于Agent、Session和IP地址的方法。(2)数据挖掘技术的方法、工具有很多,SSIS (SQL Server Integration Services)是SQL Server2005中的一个全新的组件,它提供了构建企业级数据整合应用程序所需的功能和性能且具有可视化调试等特点。本文选择采用基于SSIS的数据仓库ETL工具完成数据的抽取、转换和加载工作,并将其应用到了安徽国防科技职业学院的招生网站的决策支持和技术分析的应用中。在基本维度的处理上,使用“有道”域名分析接口解决了IP地址到地区维度的映射。(3)利用Analysis Services 2005创建了多维数据集,并部署多维数据集到Analysis Services 2005数据库中;最后完成了BI前端展示。
其他文献
随着USB3.0标准的发布,数据传输速率大幅提高,存储容量不断增大,USB接口的移动存储设备由于其体积小,携带方便,同时具有热插拔功能,给移动数据存储带来了便利。开源的Linux操
随着Internet技术的广泛应用,家庭网络迅速普及,DSL逐渐发展为宽带接入技术的主流,更多的网络终端设备如机顶盒、家庭网关等被部署到网络中。网络终端设备自身的复杂性和业务
近年来,嵌入式系统的发展非常迅速,多功能的图形化嵌入式手持终端成为一个热点研究领域。由于手持终端通常都是在移动的环境中运行,传统的机械硬盘完全不能满足其需求。而Fla
目前,多媒体在各个领域都有着自己重要的作用,比如说体育事业,新闻事业甚至于到家庭等领域,而多媒体技术的发展更推动了它的推广和使用。这样同时也就产生了数量浩大的视频数
知识处理是信息技术发展的必然趋势,随着对知识应用要求越来越高,传统的知识库系统已经不能满足新的需求。而得益近几年语义网(SemanticWeb)的迅速发展,构建起了一套比较规范的
随着视频监控应用的广泛发展,网络视频监控系统逐渐成为视频监控领域的主流。为了在有限带宽下高效传输符合质量要求的视频图像,联合视频工作组JVT(Joint Vedio Team)在2003
汽车轮毂自动识别系统主要是研究了一种机器视觉系统,这种系统能够识别流水生产线上不同款式、不同型号的多种汽车轮毂。这种识别系统的优势在于:非接触性、在线实时性、高精
在当今信息爆炸的时代,海量数据不断涌现,而且这些数据仍在以每三个月增长一倍的速度持续增长着。因此,如果不借助有效的信息挖掘方法,这些异构海量数据将可能最终变成无人关
近年来,软件的可信性问题再度引起广泛关注,航空、核工业、电信、金融、电力和交通等国家重要领域的信息化程度日益提高,国家基础设施的运转越来越依赖于大型分布式软件系统,
聚类技术是用于数据分析的最常应用的技术之一,其应用领域涉及统计学、计算机科学、生物学以及社会学等。传统的聚类算法如常见的K-means算法,EM算法等都是建立在凸状分布的