基于粗糙集理论的Apriori算法优化及其在Web日志挖掘中的应用研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:yidehua_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术在各行各业的广泛应用,Web服务器上存在大量的日志文件,通过Web日志挖掘,可以发现用户访问Web页面的模型和访问习惯。然而,经典Apriori算法在处理大规模数据时存在诸多问题,急需一种挖掘算法既能实现关联规则挖掘,又能高效地执行。  本文对经典Apriori算法进行了较为详细的分析和评价,针对该算法的不足并结合粗糙集理论中知识约简的方法,对经典Apriori算法进行了优化改进,实现了新的关联规则挖掘算法——RSApriori算法,并通过多组实验证明新算法较好地提升了运行速度和挖掘效率。此外,将该算法应用到Web日志挖掘处理中,建立基于粗糙集的Web日志挖掘模型,除去冗余属性,实现属性约简,得到有效的决策规则,也取得了良好的效果。  本文主要研究内容与创新点如下:  1.对经典Apriori算法的基本思想、优缺点以及其实现步骤进行了较为详细的描述,深入分析了影响其执行效率的关键因素,找到算法改进的切入点。  2.鉴于粗糙集理论在处理模糊不确定知识方面的特性,对粗糙集理论中知识约简方法进行重点介绍,并以该方法为基础给出了RSApriori算法。粗糙集理论的核心内容是知识约简,其基本思想就是在不改变原知识库分类能力的条件下,删除不相关或者不重要的冗余知识。RSApriori算法首先通过项集预处理操作对事务集中的项进行筛选,排除无意义的项,这就避免了生成大量的候选项集;然后利用粗糙集理论中知识约简方法对项集进行约简,这就避免了多次扫描数据库,从理论上提升了算法的执行效率。  3.实现了RSApriori算法,通过多组实验,分别设定不同的最小支持度和最小置信度,将该算法与经典Apriori算法运行结果进行了详细的对比,突出该算法在运行时间和挖掘效率方面的优势。  4.将基于粗糙集理论中知识约简的算法应用到Web日志挖掘中,建立了Web日志挖掘模型,实现属性约简和值约简,并获得决策规则,通过实例分析验证取得了较好的效果。
其他文献
学位
近年来,随着计算机和信息技术的快速发展,面部表情识别技术越来越受到重视。如何准确有效地提取表情特征并进行分类已经成为一个研究的热点。本文主要研究了表情特征提取和表情
随着中国航天的快速发展,尤其是卫星控制向深空探测、交会对接等领域的扩展,导致星载控制软件的规模越来越大、复杂度越来越高。此外,卫星研制模式由单件定制和试验性生产,向
统计表明,大约75%的人脸图像为非正面的人脸图像,对于人脸识别及其相关问题来说,姿态估计是一个重要的前处理过程。在过去的十几年里,虽然人脸识别问题的研究取得了巨大的进步,但
近年来,各种先进的数字化医疗设备在城市医疗机构大量使用,大大提高了城市的医疗水平,这些设备大多是基于PC机设计的,具有成本高、功耗大、不利于携带等特点,而很多边远乡镇地区医
图像识别一直是计算机图形学中的热门研究领域之一。本文重点研究背散射人体隐藏物识别技术,对其涉及的人体图像预处理、隐藏物特征提取、隐藏物识别等关键技术进行深入研究。
轨道交通的快速发展和规模经济效益,决定了轨道交通的发展趋势。清分系统是集监控和信息处理于一体的综合业务信息处理及管理系统,是网络化运营中重要的一个核心环节。清分系统
作为一种新兴的信息处理模式,云计算(Cloud Computing)在互联网行业飞速发展的背景下,逐渐成为当今的研究热点。云计算以虚拟化技术为支撑,根据用户需求提供动态可扩展的服务,随
被动锁模及调Q脉冲光纤激光器以其光束质量高、稳定性好、系统紧凑、结构简单等特点,在光通信、生物诊断、材料加工、国防等领域具有广泛的应用。可饱和吸收体是被动锁模及调Q
计算机断层成像(ComputerTomography,CT)技术是当今医疗诊断最常用的技术手段之一。它通过测量X射线在不同方向上穿过人体断层时的累积衰减系数,计算出它们在整个断面上的分布