论文部分内容阅读
Web页面过于复杂,而且是无结构的、动态的,导致人们难以迅速、方便地在Web上找出所需要的数据和信息。Web数据挖掘是从大量的Web文档集合和在站点内进行浏览的相关数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。它是传统数据挖掘技术在Web环境下的应用。在网站的设计实现过程中,如果能够根据用户个体的访问兴趣来进行个性化推荐,将会提高用户对网站的浏览效率,更加有针对性的满足用户的需求,从而赢得用户的青睐。通过对用户的访问信息进行Web使用挖掘,进而发现其中的模式,可以有效的实现网页的个性化推荐。对Web内容挖掘、Web结构挖掘和Web使用挖掘之间的差异进行的对比和深入研究表明,Web使用挖掘在网站的个性化推荐中具有重要意义。通过对Web使用挖掘的一般过程的分析,给出了适合于网站的个性化推荐方案。分析和比较从客户端、代理端、服务器端及后台数据库获取Web数据的特点及优势,同时分析了各种数据源在数据收集及准确反映用户浏览行为方面的局限性,最终确定了面向服务器端进行Web使用挖掘的方向。进一步分析服务器端数据源的特性,给出了针对此数据源的数据预处理方案及改进方法,提出了数据净化、用户识别、会话识别等关键预处理步骤,以便为其后的挖掘过程提供尽可能准确的数据。对网页拓扑结构及页面的访问时间进行分析,剔除了非用户兴趣的页面,提高了数据源的准确性。通过分析个性化推荐中关联规则的性质,给出了适合于网页个性化推荐的挖掘方法,并选择了满足该方法的存储结构以及关联规则挖掘算法,在综合考虑页面支持度、访问时间以及当前页面与被推荐页面之间距离等因素的基础上,给出了推荐页面的加权方案,以进一步提高推荐页面的准确率。最后,应用以上方案,对某网站的个性化推荐服务进行了设计。网站的运行结果表明,该方案能够使网站按照预期的设想,在用户浏览的过程中,提供符合用户浏览习惯和兴趣的个性化推荐。