论文部分内容阅读
随着Internet技术的迅猛发展,web网站提供的信息越来越丰富,其拓扑结构越来越复杂。在web网站提供的信息服务中普遍存在着“信息过载”和“资源迷向”的状况。从用户的角度,不同的用户有不同的访问目的,而同一个用户在不同时期的访问兴趣也可能会发生变化。对网站来说,只有迅速满足用户的访问需求,提高信息服务质量,才能创造更大的经济效益。为了解决来自用户和网站双方面的问题,自适应网站应运而生。
本文主要研究如何利用web数据挖掘技术分析用户对网站的访问情况以获得用户访问模式,利用用户访问模式实现网站智能化,使其自适应的提供个性化推荐。为此本文主要做了以下几个方面的研究工作:
(1)分析比较用户访问网站的行为记录的来源,明确了本文web日志挖掘的数据源。
(2)对数据源进行预处理。数据预处理的好坏直接决定了用户访问模式挖掘的质量。本文对数据预处理进行了深入的分析研究,对其中的用户识别和事务识别进行了改进,并给出了数据预处理各个阶段的算法。
(3)利用序列模式挖掘算法挖掘用户访问模式。分析常用用户序列模式挖掘算法GSP算法,针对GSP算法多次扫描数据库以及产生大量候选集的缺点,引入FP-growth算法,它克服了GSP算法的缺点,但是它自身也存在着没有考虑页面访问的顺序,并需要产生条件模式树的缺点,所以本文以FP-growth算法为基础,对其进行改进,加上页面访问序列,并去掉了条件模式树。通过实验证明了算法的有效性,并考虑了改进算法的增量更新算法。
(4)根据自适应网站的需求和目标构建了一个自适应网站的系统框架,并由此框架设计了一个原型系统,实现了系统的各个功能模块,解决自适应实时推荐系统中的推荐精度低和覆盖率小的问题,并对原型系统进行应用性实验,从而验证了运用相关技术实现网站自适应的可行性。
本文应用web数据挖掘技术从访问日志中提取用户访问模式,利用用户访问模式对在线用户进行分析,进行自适应个性推荐。具体通过实时自适应推荐模块和站点调整模块来实现网站自适应,这有利于提高站点信息服务质量,促进智能信息处理领域的发展。