基于XML的Web实时信息挖掘

来源 :太原理工大学 | 被引量 : 0次 | 上传用户：wwwwwwwwg

【摘要】

：

自从Internet诞生以来，互联网上的信息正以指数形式飞速增长。如何在WWW这个全球最大的数据集合中发现用户的有用信息已成为数据挖掘研究的热点，Web数据挖掘也由此应运而生。

【作者】

：

孙雪

【机构】

：

太原理工大学

【出处】

：

太原理工大学

【发表日期】

：

2006年01期

【关键词】

：

Web数据挖掘 XML 实时信息商机信息 SQL Server2000 Java

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自从Internet诞生以来，互联网上的信息正以指数形式飞速增长。如何在WWW这个全球最大的数据集合中发现用户的有用信息已成为数据挖掘研究的热点，Web数据挖掘也由此应运而生。 Web是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库；是一个巨大的文档积累的集合，包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。由于现行的网络环境以HTML语言为基础构建，它是一种只能描述形式而不能揭示内容的语言，因此，Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W 3C开发的XML (Extensible Markup Language)可扩展标记语言，支持丰富的数据结构，特别强调数据语义与元素之间的关系，因此基于XML的Web数据挖掘可以充分利用XML的特点，为Web数据挖掘带来了新的契机。同时，在信息更新速度如此之快的今天，用户已经不满足只挖掘出某些信息，而是需要Web数据挖掘能够为他们及时提供出最快、最新、最有效的信息。所以，对Web实时信息数据挖掘的研究有着巨大的潜力，也是非常必要的。本文首先详细阐述了基于XML语言的Web数据挖掘方法。通过介绍Web数据挖掘技术和XML技术的基本知识、分析了XML语言在

其他文献

基于类信息的潜在语义多类文本分类模型研究

在当前信息快速膨胀的时代，人工对文本信息进行分类是一种效率十分低下的工作。文本自动分类技术利用计算机强大的自动处理功能，极大的提高了工作的效率。目前，比较成熟的分类器

学位

多类分类潜在语义潜在语义分类偏最小二乘

动力平衡模型在健臀裤功效仿真中的研究

随着三维CAD技术的发展，计算机人体仿真和智能化的服装CAD系统是近年来在计算机图形技术领域经常研讨的重要课题。人体在穿着衣物后不仅要考虑其美观，而且要从服装的功效性及舒

学位

计算机辅助设计服装仿真动力平衡模型

基于三维形变模型的多姿态人脸识别

经过三十几年的发展，人脸识别技术取得了巨大的进步，在理想的成像条件下，已经取得了显著的成果。但非理想成像条件下(如光照条件不理想，人脸的姿态发生变化等)的人脸识别技术还远

学位

三维形变模型人脸识别部件技术

基于思维进化计算的网格资源分配研究

网格是继万维网之后出现的一种新型网络计算平台，支持各种资源的共享和广泛的协同工作，消除因地理位置造成的对计算资源的访问限制。网格的最终目的就是提供给用户与地理位置无

学位

网格思维进化计算禁忌搜索蚂蚁算法资源静态分配资源动态分配

基于eEP的数据流分类算法研究

随着信息技术的快速发展和信息搜集能力的日益提高，近些年产生了一种新型的具有快速、海量、变化等特性的数据，即“数据流”。这些数据流或以静态的形式存储在企业的物理存储器

学位

数据挖掘分类数据流显露模式(EP)

六足机器人运动控制器设计

针对前期六足机器人运动控制器表现出的一些问题，如通信速率过慢，数据采集周期较长，导致主控周期长达50ms；并且系统可靠性较差，通信故障频繁，抗干扰能力差，容错能力差等，无法满足恶劣

学位

冗余总线高可靠性容错CAN通信双机冗余

物联网对象名称服务关键技术研究

近年来，以射频识别技术(RFID)和传感器技术为基础的物联网正在逐渐从理论研究走向实际市场应用。对象名称服务系统是物联网中重要的基础服务设施，提供物品RFID编码与存放物品信

学位

物联网对象名称服务系统架构安全传输查询机制

基于词频序向量模型的快速中文文本聚类

随着信息产业特别是互联网的高速发展，人们可以很容易得从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织形式可分为：结构化的数据(如数据库记录等)、

学位

文档向量模型中文文本聚类特征提取词汇过滤文档相似度词频序向量模型

综合IP网管系统中资源管理子系统的设计与实现

电信IP网络规模正在日益扩大,业务也在不断出新,建设功能强大的综合IP网络管理系统对网络运营商具有重要的实际意义。资源管理子系统作为综合IP网络管理系统的基础,是综合IP

学位

网络资源管理网络资源模型网络管理系统访问控制EJB组件

基于多Agent入侵检测模型研究

随着计算机网络在社会各行业的应用的不断深入，人们对于计算机网络的依赖程度日益增强。由于网络的开放性、网络协议的固有弱点、网络连接形式的多样性、信息的共享和易于扩散

学位

入侵检测多Agent协议分析AAFID关联规则

基于XML的Web实时信息挖掘

其他学术论文