XML及关联规则在Web日志挖掘中的应用研究

来源 :东华大学 | 被引量 : 2次 | 上传用户:hy1330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是数据挖掘领域中一个新兴的研究方向,而Web日志挖掘是其中的一个重要的研究内容。Web日志挖掘是通过将数据挖掘技术应用于Web服务器日志文件,以得到Web用户的访问模式。网站设计人员可以据此来改善站点结构,改进站点性能,从而提高站点的服务质量。本文首先介绍了数据挖掘及Web数据挖掘等的基本概念,然后针对Web日志挖掘,重点研究了Web日志数据预处理技术,关联规则算法在Web日志挖掘领域的应用及一种基于多重评价因素的用户相似度计算方法。本文的工作主要有以下几个方面:1.详细研究和探讨了Web日志数据预处理的整个过程。其中包括:数据清理、站点拓扑识别、页面过滤、用户识别、会话识别、路径补充和事务识别。针对实验数据缺乏引用属性域,提出一种基于站点拓扑结构的路径补充算法;针对日志文件的半结构化特征,提出使用XML存储预处理结果,并给出其详细结构。2.提出了一种FP-growth改进算法,用于挖掘用户频繁访问序列模式。该算法首先构建FS-tree,然后在其上执行挖掘算法,得到所有的用户频繁访问序列。通过实验同现有的其他挖掘算法进行比对,证明了该改进算法的有效性。3.针对Web用户模糊聚类,提出一种基于多重评价因素的用户相似度计算方法,该方法综合考虑了页面次数,页面次序及访问时间等因素来计算用户之间的相似程度,并通过实验计算出各个因素所占的比重,实验结果显示使用该用户相似度计算方法的聚类算法具有更好的聚类效果。
其他文献
对等网络(Peer-to-Peer,P2P)是Internet网上的覆盖网络,网络中节点彼此处于对等地位,既可作为客户机也可作为服务器,节点间借助一定搜索机制搜索资源并建立直接连接,交换共享
作为一种社会网络,科研合作网络中的实体关系就是两个作者之间合作发表一篇论文。科研合作网络的一个重要问题就是预测两个作者之间的合作发表论文的情况,在数据挖掘中,这一
网络附属存储(Network Attached Storage)和存储区域网络(Storage Area Network)是当前网络存储设备使用的主流技术。NAS主要基于以太网技术,使用TCP/IP协议簇,提供文件级数
移动代理技术在分布式系统,无线网络,电子商务等领域已经得到应用,其优点是可以让智能Agent在Internet上自主移动和执行,并完成用户指定的任务。移动代理所具有的移动性、自
在数据量以指数级增长的互联网时代,数字视频作为人们获取信息的重要途径,呈现多元化和实时性的特点。高效视频编码作为新一代编码标准,对编码结构和环路滤波等进行了改进和
NVD(Next-generation Versatile Disc)是具有自主知识产权的红光高清光盘技术,具有成本低、不受国外专利制约的优点,有很大的市场需求。NVD节目光盘的制作由NVD编著系统完成
随着经济的急速发展和通信技术的快速进步,无线视频监控系统由于其便利和高效的优点,已经成为应用和研究的热点。   本课题来源于学院与国家海洋局东海信息中心联合开发的东
学位
随着互联网上数据的增长,通用的搜索引擎无法满足不同背景用户对于不同主题查全率的需求,垂直搜索引擎能够聚焦于特定的主题,更全面地抓取和检索与主题相关的网页。垂直搜索
实时系统的能耗问题一直是研究的热点。节能可以通过软件和硬件的手段来实现。到目前为止,大部分的软件节能都是基于动态电压调整DVS(Dynamic Voltage Scaled)。不过,最近的
信息技术的发展导致了数据爆炸式的增长,存储系统的规模达到了EB级,文件的个数也高达几十亿个。这就使得在大规模存储系统中查找和管理文件变得异常困难,因此复杂元数据查询