论文部分内容阅读
Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前,以电子商务、电子图书馆、远程教育等为Web的主要应用,促使Web以更快的速度发展,在给人们带来丰富信息和极大便利的同时,对Web站点的设计和功能提出了更高的要求。要求Web具有智能性,能快速、准确地找到用户所需要的信息;能为不同用户提供不同的服务;能允许用户根据自己的需要定制页面:能为用户提供产品营销策略信息等等。解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志,即利用数据挖掘的原则和思想,针对Web日志的新特性,对传统挖掘方法进行扩展和改进,将其应用到Web日志上,挖掘出有用的模式,根据用户的浏览模式,可以改进站点的设计和服务,开展个性化服务和构建智能化网站。目前,Web日志挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。本文系统地阐述了Web数据挖掘到Web日志数据挖掘的整个过程,重点对Web日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中,采用传统的关联规则挖掘算法要频繁扫描数据库,产生大量候选集,效率低;另外,现有的算法很少考虑到浏览模式的时效性,为了解决这个问题本文提出了一个适用于Web日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘过程中候选模式的生成操作,只对数据库扫描一次,求出所有连续子序列集,利用集合运算求得支持度,同时逐步修正会话时间得到浏览模式的有效时间,与类Apriori算法相比运行时间少,扩展性好,并且挖掘出的模式具有时效性。在此基础上,对现有的增量更新挖掘算法进行改进,增加了时态因素,能很好地适应Web日志的不断变化。最后,设计并实现了一个Web日志挖掘原型系统,证明了此算法的快速性和有效性。