基于Web日志的用户访问模式挖掘

来源 :中山大学 | 被引量 : 0次 | 上传用户:xkyx2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络管理中普遍存在信息安全保障和资源有效分配等方面的问题,这些问题都与用户的操作行为密切相关。本文针对基于Web日志的用户访问模式挖掘问题进行了较为深入的分析和研究。 根据Web使用挖掘的处理步骤,以实际的月度Web日志数据为挖掘对象,运用统计分析方法、回归分析方法以及关联规则方法等数据挖掘技术对Web日志数据进行了较为深入和全面的分析挖掘。 通过统计分析方法,发现了用户访问行为的时间特征和信息需求特征,并分析了影响网络运行状况的各种因素。 运用回归分析方法建立了预测分时段用户访问量的回归方程式。根据实际数据的验证和评估,证明回归方程式能够较好地预测分时段的用户访问量。 采用最大值方法建立了描述分时段网络运行状况最大值的数量表,较好地预测了分时段用户访问请求数据传输量和处理时间的最大值。 选择FP-Growth算法对用户信息需求的相关性进行了分析挖掘。为了避免在挖掘过程中产生大量的关联规则,对FP-Growth算法作了改进,缩减了频繁模式集的大小。根据不同类型用户的访问特点,分别设定了相应的最小支持数以及最小置信度,并对挖掘出来的关联规则进行了筛选。对满足每一条关联规则的用户数进行了统计,并计算其占总用户数的比重。经过分析挖掘,最终形成了描述用户信息需求相关性的知识。 对用户访问模式的分析挖掘有助于网络管理人员及时掌握用户的访问行为特点,制定出有针对性的管理措施,有效地管理用户访问行为,达到保障信息安全和有效分配网络资源之目的。经过验证和评估,本文所提出的分析挖掘方法是切实可行的,适用于日常的网络管理工作。
其他文献
本文以江西省国税局多元化电子申报纳税系统为背景,基于面向对象的思想设计并实现了一个可以通过互联网、程控电话网、银行网点等多种途径完成纳税申报的信息系统。该系统具
网格计算是伴随着互联网而迅速发展起来的专门针对复杂科学计算的新型计算模型,被称为第三代Internet。网格计算将地理上分布的计算资源充分利用起来,协同解决复杂的大规模问
基于表格的影像文档类型识别是影像文档识别的一个重要组成部分,是图像处理与模式识别领域内一个重要的研究课题。随着表格识别过程中信息域定位和提取、字符切分、字符识别技
随着无线通信和个人通信系统的不断发展,针对移动自组网(Mobile Ad Hoc Networks,MANETs)的研究成为热点课题之一。在Ad Hoc网络中,MAC(Medium Access Control)协议是所有报文在
目前,国内基于数据挖掘在中医证治的研究尚不完善,基本上都是基于单一数据挖掘算法的研究,未见有采用半开放的挖掘模型组技术,更未见有建立基于互联网的证治规律挖掘与应用软件。
体绘制技术是科学计算可视化的一种重要方法,它能够从体数据集中抽取内在的本质信息,并借助交互式图形图像技术展现出来。由于体绘制是将三维空间的离散数据直接转换为二维图
云计算是近几年IT领域比较热门的研究方向,云计算时代的到来,不仅仅改变了互联网的技术基础,而且还对整个IT行业产生深远的影响。云计算将数据存放在数据中心中,应用所需要的
P2P网络中所出现的各种攻击成为威胁网络正常运作的主要因素,而这都是因为有恶意节点的恶意行为存在所导致的。如何在P2P网络中识别出恶意节点,约束和杜绝节点的恶意行为成为
随着大规模网络的激增,网络的复杂性和异构性的特点日益突出,加强电信网络资源管理成为当前各级电信企业迫切需要解决的重要任务。然而,传统电信网络资源管理大部分只停留在
无线传感器网络融合了网络、信息、通信以及半导体等先进技术,在环境监测、国防军事、工业、公共卫生事业以及野生动物保护方面得到了广泛的应用。长期以来,无线传感器网络的