论文部分内容阅读
随着计算机技术的发展和Internet的普及,在各级网站的服务器中的WWW数 据也飞速膨胀。尽管传统的数据库技术和数据挖掘技术已经取得了飞速的发展并 且日趋完善,但由于Web数据其应用的特殊性,使得传统的技术不能直接应用在 Web的信息挖掘中。Web日志数据是记录用户对Web站点访问信息的数据,保存有 大量的路径信息,对这些信息的分析有利于设计人员掌握用户的喜好和访问习惯, 并可以用来对网站的结构进行优化和页面重组。 传统的关联规则技术是从包含一组事务记录的数据库中发现一些事务项目间关系的信息。本文的工作将致力于关联规则的概念引入到Web挖掘系统中,将用 户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的 行为中发现用户的访问模式。 本文在综述关联规则发现、Web数据挖掘分类、研究内容和目前研究现状的基 础上,明确了Web用户访问日志挖掘研究难点在于:如何对原始日志数据进行预 处理;如何设计有效的挖掘算法。针对这两个难题,本文研究及总结了预处理技术,并利用Apriori挖掘算法思想,给出了适合挖掘用户访问频繁路径的类Apriori 算法,并将其应用于实践中。