基于关联规则的Web日志数据挖掘算法的研究与应用

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:zbczbczbczbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘是数据挖掘研究领域中的一个重要分支,通过对服务器日志文件中的数据进行定量研究和分析后,寻找隐藏在背后的关联关系,从而提高Web用户的个性化服务和质量。本文在总结国内外Web日志挖掘的研究现状的基础之上,详细介绍了数据挖掘相关概念和技术,其中更进一步的阐述了Web日志挖掘和关联规则的过程和技术。本文以分析用户行为、改进Web站点设计为目标,指出关联规则中的经典算法Apriori用于Web日志挖掘的不足之处,针对Web站点的拓扑结构,系统的分析了Web日志文件中数据的特点,提出基于网站拓扑结构和频繁项集压缩的改进策略,该改进策略的思想是去掉站点繁琐的首页和相对繁琐的次页,并应用关联规则的分类算法CBA去寻找由次页的子页生成的频繁项集所附属的次页,在子页生成的频繁项集中加入首页和附属的次页生成最终的频繁项集。该改进的算法可以减少大量候选项集的产生,节省内存的空间,减少系统在时间上的消耗,整体上提高了效率。最后并附以实例对其进行了对比实验,经详细的分析后,验证了新算法的优越性。
其他文献
重构技术由于其在构造灵活代码方面的实用价值已经获得了普遍应用。重构旨在提高软件质量,增强可理解性和可维护性。面向方面编程(AOP)是一种新的编程范式,将横切关注点封装在
互联网的快速发展使传统的新闻媒体(报纸、电视等)和新社交媒体(博客、微博、论坛、推特等)共生且互补。新闻媒体以专业的视角对一热点事件与话题提供准确、客观、深入的报道
近年来,计算机视觉的技术发展很迅速,作为计算机视觉的一个分支,人机交互是一个非常重要的研究领域。除了语言之外,手势是人们通常会选择的第二交流方式。尤其是在语言交流不方便
随着信息技术的进步和互联网的发展,IPv4网络的局限性以及其存在的各类问题逐渐显现出来,IPv6取代IPv4成为必然。与此同时,网络安全起着越来越重要的作用,IPv4网络的入侵防御
虚拟现实,也称灵境技术或人工环境。作为一项尖端科技,虚拟现实集成了计算机图形技术、计算机仿真技术、人工智能、传感技术、显示技术、网络并行处理等技术的最新发展成果,是一
随着电力生产自动化和信息化建设的开展,地理信息系统(GIS)凭借其强大的信息管理和空间分析能力,已经成为电力信息化建设的重要研究方向,并逐渐发展为电力企业级的空间信息可
图像配准是将同一场景(或物体)在不同时刻或视角下,经由相同或者不同成像设备得到的,位于不同坐标系下的图像变换到同一坐标系的过程,而其配准方法的精度、运行效率,被作为评
随着互联网规模的不断扩大,网络资源信息与服务数量呈指数级别增长。如何从这些海量的服务数据中高效地、准确地获得满足用户需求的服务信息,已经成为一个亟待解决的问题。云计
燃气负荷预测是燃气管网系统对燃气运行与控制的基础,同时也是燃气市场运作的基础,负荷预测结果的数据是保证天然气管网的安全性、管网调度的合理性工作的重要依据。燃气负荷预
水稻是我省重要的粮食作物之一,由于水稻病虫害的发生,每年都会对稻谷造成极大的损失,改进现有水稻植保工作方法,对水稻病虫害进行有效的防治,是提高水稻产量的重要保障,而农