Web日志中浏览模式挖掘算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：llww6

【摘要】

：

Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前，以电子商务、电子图书馆、远程教育等为Web的主要应用，促使Web以更快的速度发展，在给人

【作者】

：

李红宇

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2007年期

【关键词】

：

Web日志挖掘频繁访问模式时态约束增量更新关联规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前，以电子商务、电子图书馆、远程教育等为Web的主要应用，促使Web以更快的速度发展，在给人们带来丰富信息和极大便利的同时，对Web站点的设计和功能提出了更高的要求。要求Web具有智能性，能快速、准确地找到用户所需要的信息；能为不同用户提供不同的服务；能允许用户根据自己的需要定制页面：能为用户提供产品营销策略信息等等。解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志，即利用数据挖掘的原则和思想，针对Web日志的新特性，对传统挖掘方法进行扩展和改进，将其应用到Web日志上，挖掘出有用的模式，根据用户的浏览模式，可以改进站点的设计和服务，开展个性化服务和构建智能化网站。目前，Web日志挖掘已经成为国际上一个新兴的重要研究领域，其研究工作具有非常重要的现实意义。本文系统地阐述了Web数据挖掘到Web日志数据挖掘的整个过程，重点对Web日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中，采用传统的关联规则挖掘算法要频繁扫描数据库，产生大量候选集，效率低；另外，现有的算法很少考虑到浏览模式的时效性，为了解决这个问题本文提出了一个适用于Web日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘过程中候选模式的生成操作，只对数据库扫描一次，求出所有连续子序列集，利用集合运算求得支持度，同时逐步修正会话时间得到浏览模式的有效时间，与类Apriori算法相比运行时间少，扩展性好，并且挖掘出的模式具有时效性。在此基础上，对现有的增量更新挖掘算法进行改进，增加了时态因素，能很好地适应Web日志的不断变化。最后，设计并实现了一个Web日志挖掘原型系统，证明了此算法的快速性和有效性。

其他文献

面向大规模图遍历的数据存储布局优化研究

在外存模式图处理系统处理大规模图数据时,由于图应用访问的随机性和图数据的低局部性,导致此类图处理系统在访问图数据时产生大量的外存储器随机I/O请求,从而严重影响文件缓

学位

外存模式图处理系统大规模图遍历数据布局I/O优化

基于矩阵的频繁项集挖掘算法研究

关联规则是数据挖掘领域的一个重要分支，它反映的是大量数据中间内在的关联联系，其目的是找出满足最小支持度和最小置信度要求的强关联规则。频繁项集挖掘是关联规则挖掘的关键

学位

数据挖掘关联规则频繁项集挖掘

基于XML的信息抽取和集成模型的研究与设计

随着近几年Internet的飞速发展，虽然Web已经发展成为了一个巨大的分布和共享信息资源的平台，但是如何从Web中快速和有效地获取信息仍然是困扰着Web用户的一个问题。在这样的背

学位

Web信息抽取XML数据集成映射原型系统

基于Netfilter机制的IPv4/IPv6网络平滑过渡技术的研究与实现

随着Internet的发展,IPv4因为地址空间少,服务质量无法保证等缺陷使其已经逐渐无法适应Internet的需求。作为下一代的IP协议,IPv6以其广阔的地址空间、安全性、自动配置和移

学位

IPv6NAT-PTNetfiltertunnelIP封装/解封

实时双机嵌入式容错系统的研究及应用

随着实时系统应用日趋广泛，人们对系统可靠性的要求也越来越高。容错技术是提高系统可靠性的有效方法之一。本文简要阐述了容错技术的发展过程并分析了不同故障模型下系统的容

学位

实时系统系统可靠性容错技术故障检测仲裁切换嵌入式系统

基于形态学与模糊理论的图像分割算法研究与应用

图像工程是近几年发展起来的一门学科,它的研究内容非常丰富,根据抽象程度和研究方法的不同可分为三个层次:图像处理、图像分析和图像理解。图像分割是一种重要和关键的图像

学位

形态学模糊关系图像分割分水岭算法图像处理

基于数据挖掘的网络流量异常检测系统研究

随着计算机网络规模和应用领域的日益增大,网络复杂性和异构性也不断增加,通过网络传播的病毒和人为破坏越来越多,严重干扰了正常的网络运行秩序。在这种情况下,准确、快速地

学位

异常检测数据挖掘决策树聚类分析网络安全

实值负选择算法的研究和改进

近年来，人类社会对信息的依赖程度不断增大，人们对信息的安全性也越来越关注。在研究中发现，入侵检测领域所遇到的问题和人工免疫系统所遇到的问题有很多相似性。因此，免疫系统中

学位

入侵检测异常检测人工免疫系统检测器实值负选择

基于扩展ECA的分布式工作流研究及应用

工作流技术是近年来随着Internet和Intranct的日益普及而迅速发展的技术研究领域之一。工作流管理系统是业务流程管理的重要基础，主要目标是通过调用有关信息资源与人力资源来

学位

分布式工作流工作流管理集中式管理集装箱物流管理

无结构P2P网络下蠕虫传播模型及其仿真分析研究

P2P(Peer-to-Peer)网络日益流行的同时也为蠕虫提供了温床。最近，一种新型蠕虫——P2P蠕虫的出现，使网络面临新的威胁。这种蠕虫利用P2P系统进行传播，使其传播更加隐蔽、精确。

学位

蠕虫P2P网络传播模型模拟

Web日志中浏览模式挖掘算法的研究

与本文相关的学术论文