Web日志挖掘系统中相关算法的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:furong2599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自己所需信息,成了困扰网络用户的一大难题,即所谓的Rich Data Poor Information问题。 为了解决上述问题,Web挖掘技术应运而生,其中,面向Web服务器日志的Web日志挖掘技术尤其得到了众多研究人员的关注。利用Web日志挖掘技术可以发现用户访问站点的浏览模式。 在模式发现中,首先要解决的问题就是Web日志的数据预处理。传统的Web日志数据预处理过程没有消除Frame页面的影响,导致最终挖掘出来的模式的兴趣度偏低。为此,本文作者提出了Frame页面过滤算法,并把它应用到Web日志数据预处理过程中。 数据经过预处理后,就可以根据具体的需求来选择诸如聚类、分类、关联规则等数据挖掘技术了。本文要实现的目标是:根据用户的浏览行为,发现相似的用户群;根据Web页面被用户访问的情况,发现相关页面组。本文选择的是聚类技术。首先,对已有的聚类技术进行了简单介绍。然后,详细分析了一个典型的基于距离的聚类算法,发现该算法在空间和时间的复杂性有着难以克服的局限性,为此,文中提出了一种基于矩阵的快速聚类算法——标记传播算法,用于实现用户和页面的快速聚类。最后,结合一个具体的实例,对Frame页面过滤算法和标记传播算法的有效性进行了验证。
其他文献
  本文针对传统安全工具存在的问题,安全扫描器的基础上,通过对网络攻防的深入研究,提出了一个新的安全工具“漏洞自动检测及修补系统”,该系统专门为个人计算机用户设计。与现
在信息大爆炸的知识经济时代,如何解决数字签名的授权以及数字信息的安全传递成为当前需要迫切解决的问题,代理签名是解决这类问题的一种最有效和最具潜力的技术,同时,它又是一个
在各类工业生产控制现场,会有成百上千条的信号电缆,承担着信号传输的任务。这些电缆通常埋于地下,易受到周围物体的碰撞、挤压、以及有害物质的腐蚀,使其绝缘体受到损伤,绝缘强度下降。而保证电缆对地绝缘性能良好是一个关系到信号数据可靠传输、工业现场安全运行的重要因素,因此,在线测量电缆的绝缘参数,对掌握准确、可靠的现场数据,保护电网与各类监控系统的安全是很有必要的。 本文中所介绍的电缆绝缘测试仪是以
随着信息处理理论以及计算机技术的发展,计算机视觉的研究得到更加广泛和深入的发展,计算机视觉领域中的目标识别和跟踪是其中最重要的内容,它是融合了数字图像处理,模式识别以及
住宅社区智能化是目前国内、外住宅建设领域和信息产业领域非常热门而又前沿的话题,也是能否实现住宅产业信息化的关键问题之一。其中住宅社区智能化的规划设计和系统集成是
随着电子技术的飞速发展,计算机的软、硬件已日新月异,网络环境也发生了巨大的变化,电话银行也必须跟随计算机技术的发展进行改进。 本文面向合作银行等中小型金融机构,以
随着以太网的迅速发展,网络接入成为人们关注的重点。802.1x是基于端口的接入控制协议,正在逐步被各个厂商接纳用来构建接入管理系统。  本文对802.1x协议和其他常见的接入认
企业在发展过程中积累了大量数据,并在实施信息化的过程中,采用了不同的数据管理系统,这些系统从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。为了解决异构数据
自动文摘是自然语言处理领域的一项重要的研究课题。作为解决目前信息过载问题的一种辅助手段,它能在一定程度上弥补传统的信息检索技术在应对信息过载危机时所表现出来的种
外挂是网络游戏特别是MMORPG中最大的安全性问题,外挂泛滥严重影响了网络游戏的正常运营,针对目前MMORPG中外挂屡禁不止的现象,研究反外挂技术已经是刻不容缓。本文研究了MMORPG