论文部分内容阅读
互联网与WWW以惊人的速度迅猛发展,使得设计与维护Web站点的工作日益重要。设计与维护Web站点需要深入分析站点使用情况,使得整个站点结构更加合理,便利用户浏览。尤其是对各类电子商务网站,发现客户浏览的规律从而为用户提供更加个性化的内容关系到网站的生死存亡。Web挖掘将数据挖掘技术应用于大规模Web数据,能够发现有关客户浏览行为的隐藏模式,具有广阔的应用前景。本文针对Web挖掘中的电子商务环境,采用序列关联规则挖掘的方法,提出了一套完整的个性化推荐解决方案,对其中的数据准备、挖掘算法、个性化推荐等阶段都提出了新的见解和方法。① 本文比较系统、完整的分析和论述了数据挖掘技术、关联规则挖掘技术、关联规则的增量式更新算法、Web日志挖掘的方法和Web日志挖掘的体系结构。② 本文针对电子商务环境的特点,研究了数据准备中的数据清理步骤,提出了新的可以提高挖掘效率的清理方法。同时,本文分析了数据准备中的事务识别步骤,针对网络延时的问题,提出了改进的基于时间窗口的事务识别方法。③ 为了满足电子商务网站对关联规则挖掘算法的要求,本文研究了基于支持度排序树的FOLDARM算法,对之进行了改进,提出了序列支持度排序树的概念,并给出了建树算法,使得可以挖掘序列模式。④ 为了更大程度的利用历史的挖掘结果,本文借鉴后备频繁集的概念,在序列支持度排序树中加入了后备频繁集,并给出了改进后的建树算法、挖掘算法和项目更新算法。⑤ 为了及时的体现用户对新增项目产生的兴趣,本文研究了FOLDARM算法的项目更新算法,提出了三种改进的方案。并给出了其中一种的算法。⑥ 本文针对电子商务网站的具体环境,提出了新的基于序列关联规则的个性化推荐方案和基于支持度排序树的个性化推荐方案。同时,本文还根据支持度排序树的特点,提出了进行网站拓扑结构改进的解决方案。