论文部分内容阅读
数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。 Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。 本文的工作是在“Web访问信息挖掘软件包”的开发过程中,对WWW上用户访问信息的挖掘技术进行了较为深入的研究,包括数据清洗,事务识别,Web播出中的聚类算法,关联规则发现等工作,并将Web数据挖掘 技术应用于基于Cable的WEB页面广播中。本文的主要工作如下: 1.通过数据预处理技术,将Internet上非结构化或半结构化的信息组织成逻辑单元,以表示事务或用户会话,并将所有事务组成一个自定义的事务数据库,这样就可以利用对传统数据挖掘的方法(如关联规则和序列模式的发现等)对Web数据进行挖掘;另外,采用数据清洗技术从用户访问信息中去除大量无用或与当前挖掘无关的数据,有效地提高了挖掘效率。 2.将传统数据挖掘技术中的关联规则发现技术引入Web数据挖掘,求高频物品集是关联规则发现的核心,也是计算量最大的部分,我们采用了一种快速算法Apriori,并针对在Web应用的特点进行了改进,有效地提高了求高频站点集的效率。通过分析Web访问信息,可以发现用户访问站点之间的一些关联规则,以及站点中页面之间的一些访问规则。关联规则发现可以在网站构造、Web广播等活动中得到广泛应用。 3.宽带网进行Web广播时,其播出的内容是一个大的Web页面集合。针对如何得到这个Web页面集合,以及如何组织这个Web页面集合以利于用户浏览这两个问题,本文提出一种新的聚类方法WebClustering,通过聚类得出聚类中心和聚类集,通过关联规则算法得出可信度,据此构造