【摘 要】
:
现如今,Web上的数据以无法想象的规模在迅速的增大,对这些数据进行挖掘可以得到很多重要信息。本文对创新知识云平台所生成的Web日志进行挖掘可以有效的了解客户的需求,掌握
论文部分内容阅读
现如今,Web上的数据以无法想象的规模在迅速的增大,对这些数据进行挖掘可以得到很多重要信息。本文对创新知识云平台所生成的Web日志进行挖掘可以有效的了解客户的需求,掌握客户的浏览习惯来丰富网站的内容并且对网站的优化以及展示方式都有积极的推动作用。本文通过Web日志的挖掘对用户进行聚类,将具有相同浏览习惯的用户聚集在同一个类中。在用户聚类的过程中会存在一定误差。一方面本文所采用的算法大多数是基于统计学的用户聚类算法,而统计学的准确率是建立在大量实验基础之上。为了减少统计误差,在实验的过程中,选择多个实验样本进行实验;另一方面在用户聚类的过程中一个重要的过程就是用户识别。在用户识别过程中,首先,根据用户的IP地址和用户代理来识别用户;然后,使用会话识别算法来进一步的提升用户识别的效果。用户的相似度计算是用户聚类中非常重要的过程。为了提高用户聚类的准确率,从用户访问路径频繁程度、用户访问路径序列以及用户访问页面语义内容多维度的去构建相关矩阵,通过计算每个矩阵的协调系数来分配各个矩阵的权重在整个相似度计算过程中所起到的作用,保证相似度计算的稳定性。当面临海量数据时,基于单一节点的Web日志挖掘在时间和空间上存在瓶颈。针对该问题,将用户聚类的整个流程构建在Hadoop分布式平台上,使用MapReduce并行计算模型处理日志文件完成相似度计算进行用户聚类。
其他文献
在医疗机构信息化的进程中,国内大多数医疗机构都已经建立了自己的信息系统。这些系统中,用一些共同的词汇表(类似于一个本体)来定义信息源中的领域对象,各个信息源根据共同词汇
可扩展标记语言(eXtensibleMarkupLanguage,简称XML)是一门新兴的面向Internet应用的标记语言,目前已迅速发展成为Web和数据交换的一种新标准。XML数据的海量出现使得如何有效
二战之后,最重要的生产管理方法是JIT 准时生产,同TQM 一样,JIT 已经在现代制造业中广泛应用,而JIT 采购是准时化生产系统的重要组成部分,是为了消除库存浪费进行的持续性改
随着计算机在各行各业的广泛应用,其高速运算的特点为其他学科的研究开辟了新的领域,计算材料学就是其中之一。早在90年代初期,就有国外的相关研究人员在对水泥扫描电镜图像和X
电力系统通信技术的研究是目前电力系统自动化行业的一个热点话题。电力系统通信技术是紧跟计算机和通信等IT技术的发展而发展的。就目前而言,各种最新的通信技术在电力行业都
机器人足球是一个极富挑战性的高技术密集型项目,其研究内容包括智能感知、智能思维、智能学习和智能行为等方面,同时也是机器人足球比赛的竞争焦点。而这些内容又正是人工智能
为了满足地理信息系统等应用系统对高带宽、低延迟的廉价海量存储网络系统的巨大需求,基于VIA(Virtual Interface Architecture)通信协议和以太网技术的VISA(Virtual Interface S
近十几年来,随着信息技术的发展,人们产生和收集数据的能力越来越高,我们身边不断产生着各种各样的数据,我们已经淹没在了数据和信息的汪洋大海中。作为大规模数据处理和决策支持
以总完工时间为目标的无等待流水车间调度问题是一个重要的制造加工系统,广泛应用于工业生产中。无等待问题是流水车间调度中的一种,是一类典型的NP完全问题,已被证明在多项
播存网络中,广播源点基于网络用户行为的无尺度现象,聚类整合互联网热门信息内容,对热门信息内容进行UCL(Uniform Content Label)信息标引并通过广播分发将热门信息内容的UCL和