论文部分内容阅读
近年来,随着Internet的飞速发展,越来越多的研究机构、团体以及个人开始注意到网络,并通过它来发布信息、查找信息。尽管Internet上有海量的信息,人们还是常常感到不能够找到自己想要找的信息。于是,人们提出来将数据挖掘思想与智能个性化思想结合来建设网站的想法。智能个性化网站不但能够对用户和页面进行聚类操作,还能够为不同的用户提供相应的服务。换句话说,这种网站可以为用户提供个性化的服务。 由于Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的,获取的知识是不可靠的。然而,Web服务器的log日志有着完整的结构。所以,我们可以通过对Web日志文件的挖掘来实现智能个性化服务。 本文首先分析了网络的现状,并提出了问题所在。然后介绍了Web挖掘的描述及其意义,以及实现智能个性化预测服务所用到的理论基础。 接着,详细的描述了本系统的三个处理过程。 数据预处理阶段。数据预处理是数据挖掘过程中的第一步,它主要包括四部分的工作:数据收集、数据净化、数据转换、数据归约。 挖掘算法阶段。这部分工作是本文的一个重点。挖掘算法阶段使用优化的矩阵聚类算法——权值矩阵聚类算法对用户群体和页面进行聚类。与普通的矩阵聚类算法相比,权值矩阵聚类算法将网站访问频度作为参数考虑进来提出了一个新的概念——权值关联矩阵,这是本文的创新点之一,它的优点是能够更准确的反映网站的访问情况。 模式分析及应用阶段。本阶段将挖掘结果应用到预测用户的访问路径和新用户的归类上,这是本文的另一个重要工作。这里提出了一种新的路径预测算法——HCI算法。它的基本思想是:为当前浏览页面的每个链接计算出一个分值,分值最大的即为推荐链接。这是本文的另一个创新点。通过与传统路径预测算法的比较,HCI算法的优点是:描述用户的行为更准确,预测用户的浏览路径更简单方便,预测命中率较高。对于新的用户,当他们第一次浏览网站的时候,通过计算他们和其他用户的相似度对其进行归类。 通过对学校日志的实践证明,采用基于改进的矩阵聚类算法进行挖掘,并将挖掘结果用于个性化服务的思想是有效的、可行的。这种实践为以后将个性化服务用于电子商务网站铺平了道路。