基于XML技术的Web挖掘及其解析

来源 :安徽大学 | 被引量 : 0次 | 上传用户:cjian024156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,它成为迄今为止最丰富的信息源,然而,在海量的数据中挖掘出有用的信息将变得越来越困难,Web挖掘技术在这种情况下应运而生。数据挖掘是从大量的数据中发现隐含的规律性的内容,而Web挖掘是利用数据挖掘技术,从网络中发现和提取信息,它是一项比较复杂的技术。由于Web上的数据以多种形式存在,没有特定的模型来描述,且缺乏机器所能理解的语义,从而使有些数据挖掘技术并不适用于Web挖掘。XML正逐渐成为新一代互联网数据组织和交换的标准,大量的XML数据很快出现在Web上。由于XML具有可扩展性、结构化和有效性,它能够使不同来源的结构化的数据很容易地结合到一起,因而两者的结合成为数据挖掘领域的一个热点。  Web挖掘包括内容挖掘,结构挖掘,使用记录挖掘,本文对Web挖掘的有关理论进行了阐述,着重讨论了基于XML技术的Web内容挖掘,设计并实现了一个Web内容挖掘系统框架。本文完成的主要工作如下:  1.首先从Web挖掘研究背景入手,介绍了数据挖掘技术以及Web挖掘技术,包括它们的概念、分类、难点等情况。介绍了XML技术产生的背景,主要特点以及在Web挖掘中的应用等等。  2.设计了一个基于XML技术的Web挖掘系统框架,在此基础上实现了Web上信息的提取以及挖掘。整个框架由三个模块组成:数据采集模块,数据预处理模块以及数据挖掘模块。数据采集模块主要是获取待挖掘的数据源,其思想是利用元搜索引擎从Internet中抓取Web页面。数据预处理模块中,将其分别转换成XML格式的文档,然后再将这些不同的文档进行数据集成,合并成一个文档。实现了XML到数据库的转换:利用XML文档的结构化特性,使用VTD-XML解析技术对其中的节点进行解析,通过Java/JDBC将解析出来的数据存储到数据库中,方便进一步的挖掘或者以后的程序调用。在数据挖掘模块中,对数据库中的数据进行聚类,从而抽取有用知识。  3.对XML现有的解析技术DOM与SAX做了全面的分析,对VTD-XML的解析原理进行了重点研究。通过与其它解析器的比较,发现比其它传统的解析器优越的特性。并且在详细分析的基础上提出了VTD记录的扩展方案以及改进方案。  4.对全文进行了总结和展望。  
其他文献
随着政务电子化的发展,许多信息系统迫切需要共享这些异构数据库中的数据,但是,长期以来,电子政务系统上存在着大量异构的数据库,它们的异构性表现在多个方面,如数据库模式不同,数据
在协同设计平台开发过程中,传统的开发方法,服务器与客户端之间进行的数据传输,往往采用紧耦合的传输方式。这种方式不利于平台功能的扩充,而且也不能满足平台异构性的要求,
ComapctPCI总线技术是一种加固型计算机技术,它在航天、军事、气象、电信等领域得到广泛应用。与其它体系结构计算机相比,它具有明显很多优势。本文讨论了基于CompactPCI总线
在石油勘探领域中,常常需要利用各种不同的勘探技术来获取地质数据,再利用计算机可视化技术对复杂的三维地质模型进行表示,从而让地质学家能够更加直观地观察地质环境的构造
互联网应用的蓬勃发展对大型网站提出了越来越高的要求,这些站点不仅要处理大量的并发请求,而且还要实现“24*7”的业务不间断运行。要满足这样的需求,单纯提高网站服务器的CPU
由于网上有海量的学术论文,所以要找到与研究课题相关的文章是一个艰巨的任务。人们做研究需要搜索、阅读和分析很多论文,电子书以及其他文件,然后确定它们的主要研究内容并从中
针对当前垃圾邮件泛滥日益严重的问题,论文提出了一种基于人工免疫的垃圾邮件过滤机制,在邮件安全系统中引入免疫的思想,特别是针对当前动态性、变异能力日益突出的垃圾邮件,
近年来,各种针对计算机信息系统的攻击越来越普遍。现有的入侵检测技术由于本身的一些缺陷无法很好地应对这种情况,在检测入侵中表现出自适应性不强、检测效率不高等问题。针
随着大数据时代的到来,网络上的家具图像数量急剧增多。面对海量的家具图像数据,用人工对图像进行语义属性标注,并用这一语义特性进行检索,需要耗费大量时间和人力成本。并且
微电子技术﹑计算技术和无线通信技术的进步,推动了低功耗多功能传感器的快速发展。路由协议的研究作为传感器网络的重要组成部分,已受到越来越多的重视。路由技术的进步将促进