基于Web日志的聚类分析研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:XSDCL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在分析现有主要的聚类算法的优缺点和适用范围的基础上,结合Web日志挖掘的特点,提出了一个适合对大规模事务数据,如购物篮数据和Web日志数据进行聚类挖掘的算法——直方图统计聚类算法。该算法的思想是通过将聚类结果表示为二维直方图,挖掘聚类的过程即是使聚类二维直方图中各事务的数据项总和在事务数据所形成的直方图面积中的比例最大。依据这个基本思想,首先定义了直方图统计聚类算法中的全局准则函数Profit(C)。然后,挖掘聚类的过程则变为寻找一个聚类结果使得Profit(C)的收益值达到最大的过程。通过使用直方图统计聚类算法对蘑菇数据进行挖掘实验,结果表明该算法在大规模事务数据挖掘上具有有效性及可扩展性:将直方图统计聚类算法应用到Web日志数据进行用户聚类和页面聚类的挖掘实验,结果表明该算适合Web日志挖掘。 论文主要讨论了直方图统计聚类算法的算法思想和关键技术及算法实现过程,并分析了算法的优点及不足。通过将直方图统计聚类算法和现有的一些相似或同类算法用于蘑菇数据和Web日志数据上进行挖掘试验,并对它们的结果在时空复杂度、聚类准确性、可扩展性方面进行了对比和分析。这些实验证明直方图统计聚类算法确实可用于大规模事务数据和Web日志数据聚类,对于较规则的事务数据聚类效果更好。
其他文献
卫星综合测试系统能够检验各种电系统的正确性和兼容性,检测卫星是否达到设计所要求的技术指标。如何将卫星的原始测试数据信息化,并和其他相关的业务信息集成起来,提供完整有效
无线通讯和电子技术的迅速发展使得低成本,低功耗,小体积的传感节点的开发成为可能。传感节点有着受限的计算,无线通讯和感知能力。成百上千的传感节点可以随机撒布在观测区域用
本文的选题来源于公路收费站的资助,该项目要求通过计算机终端对道路交通情况进行监测,实现对车流量的统计以及对车型进行识别,采集有关交通参数信息的作用,从而可以帮助收费站的
利用工作流可以集成企业中已有的软件服务来满足新的业务需求,从而节约企业开发新软件的成本。然而,现有工作流系统在集成已有软件服务时,存在两个问题:  1)对于业务流程中所
在教育业和计算机业高度发展的今天,计算机水平已经成为个人能力的标志,计算机考试已经深入到每一行业,随着计算机考试主观题的不断增加,教师的工作量也不断加大,同时主观题
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。基于近年来数据挖掘技术在证券市
学位
目前,Web服务已经成为了电子商务应用中一种有效的解决方案。基本的Web服务架构提供了分布环境下Web数据处理的标准化框架,但目前面向复杂应用的Web服务合成,仍有待进一步深入研
在作决策时,描述方案的各个属性对决策者而言,它们的权重是不同的。各个指标的权重的大小,对最终的评价结果起着至关重要的作用。因此,在建立综合评价模型时,各指标的权重确定是核
随着计算机的应用与互联网的普及,网络教学迅速发展,成为计算机学者和教育工作者关心和研究的热点。近期的研究多数以新型教学理论为依据,研究在网络环境下,以“学”为中心的教学