论文部分内容阅读
本文在分析现有主要的聚类算法的优缺点和适用范围的基础上,结合Web日志挖掘的特点,提出了一个适合对大规模事务数据,如购物篮数据和Web日志数据进行聚类挖掘的算法——直方图统计聚类算法。该算法的思想是通过将聚类结果表示为二维直方图,挖掘聚类的过程即是使聚类二维直方图中各事务的数据项总和在事务数据所形成的直方图面积中的比例最大。依据这个基本思想,首先定义了直方图统计聚类算法中的全局准则函数Profit(C)。然后,挖掘聚类的过程则变为寻找一个聚类结果使得Profit(C)的收益值达到最大的过程。通过使用直方图统计聚类算法对蘑菇数据进行挖掘实验,结果表明该算法在大规模事务数据挖掘上具有有效性及可扩展性:将直方图统计聚类算法应用到Web日志数据进行用户聚类和页面聚类的挖掘实验,结果表明该算适合Web日志挖掘。
论文主要讨论了直方图统计聚类算法的算法思想和关键技术及算法实现过程,并分析了算法的优点及不足。通过将直方图统计聚类算法和现有的一些相似或同类算法用于蘑菇数据和Web日志数据上进行挖掘试验,并对它们的结果在时空复杂度、聚类准确性、可扩展性方面进行了对比和分析。这些实验证明直方图统计聚类算法确实可用于大规模事务数据和Web日志数据聚类,对于较规则的事务数据聚类效果更好。