基于Web的数据挖掘技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:itowna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW上资源的与日俱增,如何使用有效的方法从中获取所需的信息,成为研究人员所面临的一个重要问题。Web挖掘就是从Web上的数据(如Web日志、Web页面内容)发现用户的浏览模式或寻找相关的Web页面。通过Web挖掘既可以为站点管理者、投资商和广告商等提供合理建议,也可以为用户提供功能强大的智能搜索引擎、个性化服务等。由于Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的,获取的知识也是不可靠的。然而,Web服务器的log日志有着完整的结构。所以,我们可以通过对Web日志文件的挖掘来实现对Web数据的使用挖掘。 本文首先分析了Web挖掘的动态,并提出了问题所在;然后介绍了数据挖掘及Web挖掘技术,并阐述了XML与Web挖掘之间的关系。 详细描述了Web数据的使用挖掘系统的三个处理过程。 数据预处理阶段:Web使用信息的预处理是Web数据的使用挖掘任务中的重要阶段,也是工作量较大的一部分,数据预处理的质量直接关系到数据挖掘结果的好坏,本文主要讨论了预处理过程中的数据收集、数据清洗、用户识别、会话识别、事务识别和路径修补等各个环节。 模式发现阶段:这部分工作也是本文研究的一个重点。首先介绍了Web日志挖掘中常用的路径分析、关联规则、分类与聚类技术;然后通过对问题的描述,引出了本文所使用的一种高效的时间序列挖掘算法,该算法既保证了时间序列挖掘上的完整性,同时又具有更高的效率。 模式分析及应用阶段:主要介绍了模式分析作为Web数据的使用挖掘的最后一个重要步骤,为了让用户能够得到并理解所需要的知识,系统采取三种方法,即查询机制、OLAP技术和可视化技术。 针对Web数据自身的特点,总结了Web数据的使用挖掘的一般过程,并且在考虑到系统功能扩展的同时,设计了系统的结构图。
其他文献
目前,影视素材库的管理处于从传统的模拟技术向数字技术转变的过渡阶段,数据存储技术将在近几年得到更快的发展。由于存储管理系统具有较高的技术难度,国内主流市场几乎被国外的
动态隧道算法是一种全局优化研究方法。该算法重复以下两个过程:一是动态优化过程,在该过程中寻找一个局部最小点;二是动态隧道过程,该过程以该局部最小点为基准找到一个更小
书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻详、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括
两层传感器网络中的数据查询是用户获取和分析感知数据的重要手段。由于两层传感器网络具有资源受限、以数据为中心和应用相关等特征,且大都部署于无人值守、复杂多变的环境中
本文将多智能体系统和面向服务的架构的思想架构相融合,将其设计理念引入到微网EMS的管理与控制中,基于IEC61970国际标准,结合微网系统本身的特点,整合了整个微网的公共信息
随着互联网规模的不断扩大及其应用的多元化发展,对网络性能监控和运行管理的要求越来越高。其中对网络流量的测量与分析是网络管理中不可缺少的组成部分。网络管理员可以利
数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各种数据清洗方法相结合的不断反复的过程。本
近年来,随着IT技术的发展,越来越多的信息系统在各企业中建立起来,各企业内部通常都是通过这些系统来管理存储相关业务数据。通过几十年的发展积累,企业内需要管理存储的数据变得
Native XML数据库是随着XML的广泛应用而产生的,它专门用来存储和管理XML数据。Native XML数据库具有一般数据库的特性,但它的内部存储是基于XML数据的树形结构。它所存储的XML
随着当今社会的迅速信息化,各种多媒体信息资料飞速发展。音乐作为一门艺术,已经成为人类生活中必备的部分。一直以来,音乐都是人们表达情感的渠道,可以为欢乐而歌,可以为悲