WEB站点日志数据挖掘的研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:yuwen0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web站点日志的数据挖掘是对用户与Web服务器的交互产生的日志数据使用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式和用户的兴趣,从而为用户的个性化服务提供依据,同时将一些可疑的访问信息及时反馈给网站管理员以加强网站的安全性。本系统以Web日志和Web拓扑结构作为数据源,从数据收集、数据预处理和数据挖掘分析三个阶段阐述系统的整体结构和实现,系统采用图论来表现关联规则挖掘的优化算法并给出部分JAVA代码实现。引入关联规则挖掘,对关联规则基本概念作了介绍,提出了关联规则的分类方法。对挖掘算法的介绍,对传统相似度聚类分析进行了研究并做出了改进。基于安全的考虑提出了正常浏览模式、异常浏览模式的概念并利用改进的相似度进行挖掘。对传统的Apriori算法进行改进,提出了用图论的方法即大图法来挖掘用户偏好路径,发现用户的访问兴趣。提出了基于Web日志挖掘技术的站点日志挖掘体系结构,为进一步实现Web站点智能化服务打下基础。 本论文的结构如下: 第1章:对目前的数据挖掘技术进行了分析,着重指出了Web挖掘的国内外研究现状和热点,阐述了最新的数据挖掘分类,并提出了研究站点日志挖掘的主要内容和意义。第2章:详细讲述Web数据挖掘,阐述当前Web数据挖掘的最新分类和由于数据的结构性不同所面临的困难,最后重点讲述日志和日志挖掘实现流程。第3章:讲述了Web日志挖掘中的信息收集。不同信息源分析和信息收集的过程。第4章:从数据预处理的目的、过程、程序实现以及相关数据库建立等方面分析了日志挖掘的数据预处理过程,重点阐述了数据净化、用户识别、路径补充和事务识别。第5章:讨论如何进行日志挖掘和相应的算法分析。包括采用会话相似度分析将日志记录分为正常访问模式和异常访问记录,引入大图法采用关联规则分析用户的偏好路径。第6章:给出了日志挖掘系统的实验体系和部分实验结果。第7章:总结了本课题研究成果主要有四点,指出了需要进一步改进的方面。
其他文献
并行计算被认为是科学家和工程师用来解决各种领域的问题的标准方法,在工程设计、科学计算和商业应用中扮演着重要角色。随着并行计算技术和高速网络技术的不断进步,网络并行
随着嵌入式系统的广泛应用以及网络技术的飞速发展,安全性也显得越来越重要。嵌入式操作系统在嵌入式系统中占有很重要的地位,特别是对增强嵌入式系统的安全性方面,操作系统具有
人脸表情识别有着广泛的应用前景,逐渐成为当前人机交互领域的研究热点之一。表情识别是智能化和自然的人机交互的本质。实现自然和谐的人机交互,必须使计算机能够有效地理解人
虚拟实验室是我国未来实验教学发展的趋势,它在提高学生实际应用水平,节约教育成本等方面发挥了巨大的作用。针对目前专业基础虚拟实验室还比较少的现状,本文提出构建微机接
随着组件技术在软件开发中日益广泛的应用,对软件系统质量的要求也不断提高。因此,保证软件系统可靠性的软件测试技术,也面临着不断革新的需要。由于软件组件自身的一些特点,
虚拟机作为云“环境”的基础设施,随着云“计算”的发展得到了广泛的部署,其安全性也越来越受到业内研究人员和应用开发商的关注。在众多的虚拟机安全问题中,内核rootkit的攻击
经过几十年的蓬勃发展之后,自然语言处理面临着语义知识资源匮乏和处理技术欠缺的瓶颈,语义资源建设对自然语言处理的未来具有重要意义。本文选择中文语义语料库建设作为研究课
客户/服务器计算模型(Client/Server: C/S)是现代互联网应用的核心。结构的简练和高效使其成为Internet的主流,现有应用也多以此为基础。但随着网络应用规模的快速扩展,该模
本文在论述需求工程及需求管理的相关理论和技术方法的基础上,指出有效的需求管理措施是软件项目取得成功的关键。由于目前国内软件行业中,人们对于需求管理的认识尚不够充分
20世纪90年代后期,新型商务和通信的不断创建对软件开发提出了更高的要求。在分析中发现,传统的软件设计、开发方法在设计和开发较大型的软件时显露出开发周期长和成本高的缺