基于K-Means算法的Web日志用户聚类研究

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:suguangli1507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借
其他文献
针对聚类算法普遍存在的数值震荡和计算量大以及传统异常检测中存在的分析准确率低和时效性差等问题,提出了一种改进的近邻传播聚类算法———IMAP的异常数据检测方法。通过
近日,空间打造运营商BEEPLUS正式上线了“BEEPLUS WORK”办公空间小程序,面向BEEPLUS办公空间会员及其他用户提供办公服务、社群服务、零售服务和动态资讯四大功能在内的全方
显然,人们知道得越多,就越有见识。但是,在信息量和应该标记采取行动之间存在一个临界点,尤其是在网络安全方面。随着企业变得更加数据驱动和自动化,IT系统已经变得越来越难
2000年,冈萨雷斯的第一部长片《爱情是狗娘》就在戛纳电影节连夺三奖。至今他只拍了6部长片,却不断拿奖。《鸟人》与《荒野猎人》更是连夺两届奥斯卡最佳导演。冈萨雷斯喜欢用
目的 评价全省实施结核病控制(DOTS)策略4年的效果。方法 利用各项目单位的月报表、季报表及督导检查资料进行分析。结果 2002年至2005年全省发现活动性肺结核病人分别为9158、
源于2008年的全球金融危机给我国经济带来了不可忽视的冲击,也使我国企业在人口红利和低劳动力成本掩盖下的诸多问题暴露无遗。严峻的内外形势下,如何保证自身的生存和发展成
针对二进制粒子群优化算法在寻优后期存在多样性丢失、收敛精度低等问题,提出一种分等级学习策略的二进制粒子群优化算法(HLBPSO)。首先,HLBPSO算法借鉴鸡群优化算法中的等级
介绍了一种快速实时的网络时钟最大时间间隔误差(MTIE)评估算法的实现方法和测试结果。MTIE算法是一种通信网络领域重要的时间信号特性评估算法,它可以识别出在给定观测窗口
我国高速公路上常出现爆胎现象,引发事故,造成损失.本文分析影响爆胎的诸种因素,提出要克服爆胎的几个关键问题.应注意轮胎的造型,在汽车行驶中注意轮胎的气压、速度、承受的
以湖北省公路货运运力为研究对象,分别从总量、车型、布局、技术性能等方面分析湖北省公路货运运力的现状,在对比国内其他地区运力发展趋势的基础上,提出了湖北省运力结构调