Web日志挖掘及其实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:game1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet技术的发展,WWW的应用也越来越多,Web站点越来越普及。在当前竞争激烈的网络经济中,只有赢得用户才能获得竞争中的优势。客户浏览行为的数字化,使得通过收集大量用户浏览行为数据来深入研究客户行为变为可能。如何利用这个机会,从这些“无意义”并且繁琐的数据中得到有价值知识和信息成为目前面临的最紧要的问题之一。为了解决这个问题Web站点的数据挖掘技术诞生了。本文重点研究了日志挖掘技术及其步骤,研究了数据预处理的过程和其中难点的解决方法,包括用户识别技术,路径补充技术等技术。详细介绍了关联规则的经典算法Apriori算法。在研究一些Apriori改进算法的基础上,本文通过缩减数据库和对连接方法进行改进实现了对Apriori算法的改进,提出了I_Apriori算法,并且在理论上证明了I_Apriori算法的空间复杂度和时间复杂度比Apriori算法小。为了验证所提出的I_Apriori算法的空间复杂度与时间复杂度,并且把所研究的技术应用到实际应用中去,本文以哈尔滨工程大学50周年校庆网站为日志挖掘对象,分别使用Apriori算法和I_Apriori算法对经过数据预处理后的日志文件进行分析。实验的结果表明I_Apriori算法的空间复杂度和时间复杂度都比Apriori算法有改善。为了使比较结果具有普遍性,在给定不同的最小支持度的情况下,把Apriori算法和I_Apriori算法分别对同样的日志文件进行挖掘,实验结果表明在给定不同的最小支持度的情况下,I_Apriori算法的效率比Apriori算法高。最后,通过采用I_Apriori算法对日志文件进行分析找到了在网站结构和内容中存在的问题,并且给出了解决方案。
其他文献
随着互联网时代的到来,计算机和网络已经深入到人们日常生活和工作。计算机网络及其应用技术的飞速发展给人们带来便利同时,也带来了数据泄漏、恶意监控等安全问题,如何保证
基于Web 2.0的政协办公业务资源信息系统构建于J2EE平台上,按照MVC(模型-视图-控制)模式设计、组织和实施整个系统架构。本系统可分为应用系统数据源层(Data Source)、数据持
虚拟现实技术是利用计算机生成一种高逼真的模拟环境,通过多种传感器接口使使用者“沉浸”到这种环境中,实现使用者与该虚拟环境直接进行“交互”的技术。立体式虚拟校园能给
人脸表情识别是情感计算研究领域的重要分支,对于人机交互的实现有着重要的意义。本文对人脸表情识别中的特征提取和分类识别两方面进行了分析和研究,对传统的几何特征提取方
面向方面编程(Aspect-Oriented Programming,AOP)是一种全新的编程范型,它可以将影响多个类的行为封装到一个可重用模块中,从而消除面向对象编程(Object-Oriented Programmin
计算机集群系统在各个行业得到了广泛应用,但在远程教育系统中的应用目前还比较少,即使一些远程教育中心的教学平台使用了集群系统,但也都是采用商业的集群系统构建的。目前,
计算机仿真技术是计算机科学应用的一个分支,通过合理设计系统的结构、功能和行为来实现接近于现实世界的动态模拟。本文所研究的仿真技术为基于网格的分布式微观仿真,有着如
网络管理系统是网络的重要组成部分,是保证通信网高效、可靠、经济和安全地运行的重要支撑手段。简单网络管理协议SNMP由于其简单和易于实现,己经成为网络管理领域事实上的行
在B2B电子商务环境中,交易伙伴之间的信息交换,存在着跨越企业边界、运行平台差异、数据结构差异等问题,采用基于SOAP通信协议的Web服务技术,可有效整合B2B电子商务系统,促进
随着企业信息化的不断扩展,企业业务流程趋于更加复杂,需要引入工作流技术支撑企业业务流程的信息化。工作流技术由于提供对商业过程自动化的支持,已成为整合企业复杂信息环