Web数据挖掘中XML应用及关联算法改进

来源 :山东大学 | 被引量 : 0次 | 上传用户:janebudian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向web的数据挖掘是一项复杂的技术,Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同,我们将Web数据挖掘分为三类:Web内容挖掘、Web结构挖掘、Web用法挖掘。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决数据挖掘难题带来了希望。Apriori算法在关联规则领域有很大的影响力,然而由于需要过于频繁的扫描数据库及较大的空间消耗,仍然有需要改进的地方。通过对Apriori算法进行深入研究,本文提出了一种Apriori改进算法,通过比较分析,获得了较好的效率和性能。本文完成的主要工作如下:(1)完成了对基于XML的Web数据挖掘的技术研究。本文通过对XML这种近几年出现的具有很大潜力的Internet数据交换技术的研究分析,提出了基于XML的Web挖掘的新思路,并且完成了对XML的Web挖掘系统的系统功能设计。(2)实现了XML到数据库模式的转化工具。本文主要针对XML的DTD文档,提出了一系列从XML到关系数据库模式的转换算法,从而也就把基于XML的Web数据挖掘与传统的基于关系数据模式的数据挖掘算法建立了联系。(3)对Apriori算法进行深入分析,并提出了一种优化算法。
其他文献
现代化工企业生产是典型的制造业,面临着如何利用信息技术提高车间现场生产计划的适应性、实时性和灵活性,加强生产组织与管理的有效性,提高生产效率,缩短合同交货期和提高产品质
问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需
随着无线网络技术的飞速发展及移动设备的广泛应用,移动协同工作(Mobile CSCW)的出现成为传统CSCW发展的必然趋势。Mobile CSCW在体现其优势与价值的同时也存在一些不足。移
随着虚拟现实、3D打印等技术的迅速发展,三维模型广泛应用于场景建模,机器人导航,文化遗产保护等不同领域。许多这样的应用场景需要从现实世界中获取三维模型。传统的基于三
SOPC是以大规模FPGA为物理实现载体的片上芯片系统,是融电子电路技术、可编程逻辑器件、EDA技术、SOC、嵌入式系统、DSP、IP等为一体,集先进性、高效性、经济性于一身的新技术
针对现有ERP系统中存在的面向功能和流程固化方面的不足,本文提出了基于构件库的ERP系统。基于构件库的ERP系统开发方式是一种类似于“零部件组装”的集成生产方式,即从软件构
心脏的发育过程中是由一个小心血管开始的,通过研究小心血管的发育过程,可以帮助医学研究者分析先天性心脏病的形成原因,光学相干层析技术( Optical Coherence Tomography, OCT)由
面向对象分析和设计方法的出现,对软件领域的发展乃至软件的架构思想起了强大的促进作用,其思想已经超出了程序设计的范围,渗透到诸如软件工程,信息系统,工业设计等复杂的工
随着信息化程度的不断提高,各种院校、企业等团体的网络规模迅速扩大,并且在这些以太网平台上,各种大规模网络应用不断呈现,网络流量急剧增长。对于越来越复杂的网络环境,现
近年来,进化计算在处理复杂、非线性问题方面取得了较大的成功。特别是针对多目标优化问题,出现了许多多目标优化算法(MOEA),最具代表性的算法有NSGA2和SPEA2,这些算法一次运