Web日志中浏览模式挖掘算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:llww6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前,以电子商务、电子图书馆、远程教育等为Web的主要应用,促使Web以更快的速度发展,在给人们带来丰富信息和极大便利的同时,对Web站点的设计和功能提出了更高的要求。要求Web具有智能性,能快速、准确地找到用户所需要的信息;能为不同用户提供不同的服务;能允许用户根据自己的需要定制页面:能为用户提供产品营销策略信息等等。解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志,即利用数据挖掘的原则和思想,针对Web日志的新特性,对传统挖掘方法进行扩展和改进,将其应用到Web日志上,挖掘出有用的模式,根据用户的浏览模式,可以改进站点的设计和服务,开展个性化服务和构建智能化网站。目前,Web日志挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。本文系统地阐述了Web数据挖掘到Web日志数据挖掘的整个过程,重点对Web日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中,采用传统的关联规则挖掘算法要频繁扫描数据库,产生大量候选集,效率低;另外,现有的算法很少考虑到浏览模式的时效性,为了解决这个问题本文提出了一个适用于Web日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘过程中候选模式的生成操作,只对数据库扫描一次,求出所有连续子序列集,利用集合运算求得支持度,同时逐步修正会话时间得到浏览模式的有效时间,与类Apriori算法相比运行时间少,扩展性好,并且挖掘出的模式具有时效性。在此基础上,对现有的增量更新挖掘算法进行改进,增加了时态因素,能很好地适应Web日志的不断变化。最后,设计并实现了一个Web日志挖掘原型系统,证明了此算法的快速性和有效性。
其他文献
在外存模式图处理系统处理大规模图数据时,由于图应用访问的随机性和图数据的低局部性,导致此类图处理系统在访问图数据时产生大量的外存储器随机I/O请求,从而严重影响文件缓
关联规则是数据挖掘领域的一个重要分支,它反映的是大量数据中间内在的关联联系,其目的是找出满足最小支持度和最小置信度要求的强关联规则。频繁项集挖掘是关联规则挖掘的关键
随着近几年Internet的飞速发展,虽然Web已经发展成为了一个巨大的分布和共享信息资源的平台,但是如何从Web中快速和有效地获取信息仍然是困扰着Web用户的一个问题。在这样的背
随着Internet的发展,IPv4因为地址空间少,服务质量无法保证等缺陷使其已经逐渐无法适应Internet的需求。作为下一代的IP协议,IPv6以其广阔的地址空间、安全性、自动配置和移
随着实时系统应用日趋广泛,人们对系统可靠性的要求也越来越高。容错技术是提高系统可靠性的有效方法之一。本文简要阐述了容错技术的发展过程并分析了不同故障模型下系统的容
图像工程是近几年发展起来的一门学科,它的研究内容非常丰富,根据抽象程度和研究方法的不同可分为三个层次:图像处理、图像分析和图像理解。图像分割是一种重要和关键的图像
随着计算机网络规模和应用领域的日益增大,网络复杂性和异构性也不断增加,通过网络传播的病毒和人为破坏越来越多,严重干扰了正常的网络运行秩序。在这种情况下,准确、快速地
近年来,人类社会对信息的依赖程度不断增大,人们对信息的安全性也越来越关注。在研究中发现,入侵检测领域所遇到的问题和人工免疫系统所遇到的问题有很多相似性。因此,免疫系统中
工作流技术是近年来随着Internet和Intranct的日益普及而迅速发展的技术研究领域之一。工作流管理系统是业务流程管理的重要基础,主要目标是通过调用有关信息资源与人力资源来
P2P(Peer-to-Peer)网络日益流行的同时也为蠕虫提供了温床。最近,一种新型蠕虫——P2P蠕虫的出现,使网络面临新的威胁。这种蠕虫利用P2P系统进行传播,使其传播更加隐蔽、精确。