基于Apriori改进算法的Web日志挖掘系统的研究与实现

被引量 : 0次 | 上传用户:fengjintao1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式。本文主要从以下几个方面对Web日志挖掘进行系统的分析和研究:本文首先阐述研究背景及Web日志挖掘的国内外研究现状,并对Web数据挖掘进行了概述;其次对Web日志挖掘中的数据预处理技术进行了分析与研究,详细分析了路径补充功能的实现;紧接着研究了Apriori算法在每次生成频繁集后,仍多次扫描有些可以判断出不必再去扫描的项目或事务,影响了Apriori算法的效率,在这样的问题下,本文提出了Apriori算法的改进及web日志挖掘的具体实现过程,并给出具体实例。最后论文总结本课题的研究成果和工作中尚存的不足,并指出Web日志挖掘的研究方向、应用前景和它所面临的挑战。本文的创新点在于:一是由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。缓存保存了用户最近刚刚访问过的页面,当用户点击“后退”图标时,用户的这一请求不被发送给服务器,显示给用户的是本机缓存的页面,这样Web服务器就无法知道用户又进行了重复访问这种操作,即无法探知到用户又访问了重复的页面。因此,这次访问没有被记录在Web日志中,从而不能准确地体现用户的访问路径。本文针对其不足,根据Web站点结构和客户端缓存实现将疏漏的页面补充在路径里。二是重点分析关联规则算法中的现有Apriori算法,从Apriori算法描述中不难发现,Apriori算法在每次生成频繁集后,又要回去扫描数据库来判断这些候选频繁项目集是否是频繁项目集,有些可以判断出不必再去扫描的项目或事务仍被多次扫描。当候选集规模较大时,事务数据库中的数据在不断地增加,每次增加数据后,Apriori算法计算频繁项目集和生成关联规则这两项工作必须针对增加新的数据后的数据库重新做起,这意味着以前生成的频繁项目集和关联规则都没用了,这显然不利于快速高效地发现关联规则。再有当数据库的规模超出主存的容量时,不足也就明显体现。针对其不足,本文提出一种关联规则挖掘的改进模式,通过引入分辨矩阵实现只扫描一次数据库,从而使算法效率有所提高。三是借助于VC++平台设计一个Web日志分析系统。针对系统的四个子模块:日志记录抽取、会话识别/用户识别、用户分析、页面分析,本文分别进行了介绍分析,进一步明确通过Web日志挖掘的分析,能了解用户的访问信息,更好的为用户提供众多的服务。
其他文献
唐骏一加入盛大,外界总是传言唐骏即将离职。有些媒体更是认为唐骏在盛大一年都待不了。然而,唐骏却在盛大呆了四年,真是出乎大家意料。是什么力量,让唐骏成为职业经理人中的劳斯
<正>几只硕大的小亚腰葫芦和纺锤葫芦在密集的藤蔓中若隐若现,几颗成熟且呈黄色的南瓜与萌芦相映成趣。萌芦的主色为鹅黄与赭色的混合色,间杂以花青和淡蓝,而藤蔓多以花青、
研究不同干燥方法三七切片皂苷含量的变化。采用日光照晒、50℃烘烤、100℃烘烤、微波干燥等方法对鲜三七切片进行干燥,并通过HPLC方法测定三七皂苷R1、人参皂苷Rg1、人参皂
高速无泄漏锁紧阀应用于空间对接机构模拟台上,对模拟台起安全保护作用。锁紧阀具有高速、大流量、关闭后无泄漏的特点。该文首先进行了锁紧阀的方案设计,然后通过AMESim对锁紧
目的观察老年冠心病患者接受氯吡格雷联合阿托伐他汀后,对血脂水平与心功能指标产生的影响,探析药物作用机制。方法选择2016年12月-2018年2月收治的80例老年冠心病患者,均给
私募股权(PE)投资在全球范围内正在飞速的发展壮大,亚洲地区尤其是中国已成为PE投资的重点区域。近几年,我国PE投资的发展极其迅速,但由于多种原因,我国的PE市场发展仍处于起
王羲之《兰亭序》曾云"死生亦大矣,岂不痛哉!"此语表明生死问题是古今智者都非常关切的重大问题。文本的主旨即在于对道家学派创始人老子的生死观进行简要评介,以考察先哲对
朗读是感受、理解、审美的重要手段。培养小学生朗读技能技巧是小学第一学段语文课程的重要任务。为了解第一学段朗读教学的现状,对H小学第一学段学生进行朗读情况与随机抽样
<正>"烹调美味的羊腿大约需要1小时。现在,在同样的时间里,你可以给自己组装一辆使用开源硬件的汽车。"据说目前最快的记录是:42分钟!开源模式在软件领域展现出了巨大的能量,
加热炉液压系统的运行状态直接关系到整条生产线是否能稳定运行。以首钢水钢加热炉液压系统为例从系统泵站的组成(泵站、阀台、电控系统)、关键设置、步进梁的调试进行详细介