web日志挖掘系统模型研究与设计

来源 :南昌大学 | 被引量 : 0次 | 上传用户:yichunyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂的信息中,这种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需的信息资源,即信息迷失。当前我们主要采用搜索引擎来检索Web上的信息,但是大多数搜索引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问题。直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于Web服务器日志的挖掘。而Web日志数据通常是大量的、冗余的,日志中的页面之间的关系也是模糊的、不确定的。粗糙集理论是有效处理不精确和含糊信息的软计算工具,而模糊逻辑可以依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似矩阵对客观事务进行聚类。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。它是数据挖掘中是一个重要的技术,最近几年已被业界所广泛研究。Web日志挖掘可以从网站的日志数据中获取用户的浏览模式,根据用户的行为模式,改进站点的设计和结构,为用户提供个性化服务。所以本文研究的Web日志挖掘系统模型是具有一定的理论意义和现实价值。本论文首先系统地阐述了从数据挖掘、Web挖掘到Web日志挖掘的整个过程;其次介绍了粗糙集(Rough Sets)和模糊逻辑(Fuzzy Logic)理论,以及基于粗糙集的属性约简算法和模糊聚类算法;然后提出了一种关联规则挖掘的改进算法—基于邻接表索引的Apriori算法,并设计和实现了一个Web日志挖掘系统模型。而且已经使用校园网服务器中一个月的日志记录对此模型进行了测试,并达到了较满意效果。最后,对模型的优势及不足进行了总结,并提出了进一步研究的目标。
其他文献
信息技术的快速发展使得各行各业对数据交换的需求越来越迫切,而传统的数据交换平台存在部署复杂、结构单一、效率低下的缺点,它要求所有的合作伙伴都必须使用唯一的解决方案
下一代网络是业务驱动的网络,开放业务接口将电信业务的开发开放给了第三方,这有利于促进业务的繁荣。简单、统一的业务提供接口和方式可以实现业务的快速开发和统一处理。现
医学成像已经成为现代医疗不可或缺的一部分,用不同的成像设备所得到的医学图像信息常常具有互补性,为了综合使用多种医学成像模式以提供更全面的信息,常常需要将有效信息进行整
随着IT技术的不断发展,Intranet/Internet技术得到广泛应用,计算机数目不断增加。对于网络管理人员来说,管理和维护局域网大量的计算机越来越困难。因此如何开发既能准确定位出
空间数据库是近年的热点研究领域,它在地理信息系统(GIS),计算机辅助设计与制造(CAD/CAM),多媒体系统以及数字地球方面都有着广泛的应用。空间数据近邻查询作为空间数据库在
公共资源在我们的日常生活中是随处可见的。所谓公共资源,是指可以被公众或者特定的团体成员使用的某个或者某类资源。由于资源的使用权不确定,由此便带来一系列的问题。对于
网络运行维护是电信运营商主要的生产与管理工作职能之一,是保障运营商的网络与业务正常、安全、有效运行的不可或缺的重要部分。运维系统建设和运行的好坏直接影响到电信运
由于互联网的高速发展以及搜索引擎的技术限制,目前搜索引擎的查询信息很难覆盖到整个网络。有调查表明,现有搜索引擎所返回的查询结果往往不符合用户的查询需求。如何真正以用
在计算机游戏中,玩家与游戏对象的交互是通过手动编写脚本程序实现。计算机游戏具有复杂且有深度的故事情节,因此游戏的脚本程序实现起来很复杂。通常游戏故事的作者是无法完
近年来,随着电子技术、无线通信技术和嵌入式技术的快速发展,造价低、功耗低和功能多样的传感节点应运而生,无线传感网络技术在环境监测、工业、医疗等领域越来越受到广泛的