基于XML的WEB数据挖掘

来源 :中南大学 | 被引量 : 0次 | 上传用户:fangaocang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,越来越多的数据库和信息系统不断加入网络,使得网络上存在大量的数据,面对如此缤纷复杂的Web空间,如何从浩如烟海的网络数据中发掘所需信息已经成为人们所关注的一个重要问题。虽然用户可以依赖于各种搜索引擎快速、高效、准确地检索到相关的信息,但是要想找到用户所需要的信息,还是有很大的困难。近年来出现的Web数据挖掘,特别是基于XML的WEB数据挖掘对解决这个难题提供了一个有效手段。本文研究了基于XML的WEB数据挖掘的基本方法和技术。阐明了数据挖掘的必要性、基本方法、主要过程、所涉及到的技术,以及数据挖掘和在线分析处理的联系等,并阐述了XML的相关技术。在此基础上,探讨了XML与WEB数据挖掘技术,认为基于XML的WEB挖掘分为XML结构上的挖掘和XML内容上的挖掘;XML在WEB挖掘中主要有数据交换、实现异构数据集成、裁减信息内容、将负载从WEB服务器转到WEB客户端等四类应用,基于XML的WEB数据挖掘可分为确定业务对象、数据准备、数据挖掘、模式评价四个步骤。论文重点研究了非结构化文档向结构化文档转化的方法,设计并实现从非规则、非严谨的HTML文档向结构化XML文档转化的过程,根据用户浏览网页的行为建立用户的兴趣模型,利用XML数据抽取技术将半结构化数据映射为结构化数据,建立了一个基于xml的Web数据挖掘系统。此系统可以帮助用户更好地从网络环境中挖掘到自己需要的信息。由用户的Cookies获得用户在某个域名上的点击次数和登陆次数,从收藏夹中获得用户收藏夹上的记录和收藏夹中记录的访问次数,或者利用钩子函数进行用户浏览网页的动态分析,并根据这些数据建立和更新用户兴趣模型。根据XML文档的结构特征从XML网页中抽取网页的特征向量,采用改进了的TF-IDF公式计算其特征权值。根据网页特征向量与用户兴趣向量的值计算它们的相似度,把相似度进行排序,根据用户需求把相似度大的网页推荐给用户,把用户最感兴趣的信息放在最前面。所有的研究目的就是提供一个实用的Web挖掘系统,帮助人们更好地找到自己所要的知识。在理论论证基础上,论文对挖掘原型进行系统设计、功能模块分解和实验分析。最后,指出了基于xml的Web数据挖掘的研究方向、应用前景和它所面临的挑战。这一技术将成为未来Internet环境中主流的网络计算技术。
其他文献
随着现代无线通信技术和因特网的发展,任何人随时随地都能够方便的进行通信交流的要求,已经成为人们对现代信息网络的切实要求,Ad hoc网络可以很好的解决这个问题。Ad hoc网络,又
现代社会,人们的用电需求以及对能源的创新需求不断提升,同时科学技术也在迅猛地发展,利用先进电子通信技术满足社会需求的智能电网应运而生。随着研究的不断深入,智能电网中各类
道路交叉口处的交通信号灯是城市道路网中的主要控制设施,合理调节信号灯的控制是提高城市交通质量,提高现有道路利用率的关键所在。本文选择具有众多优点的视频图像检测传感器
随着信息安全的重要性日益提高,网络攻防技术得到迅速的发展,远程控制技术的研究也成为网络攻防研究中的热点之一。Rootkit作为一种长期隐蔽控制计算机系统的有效工具,其相关
Web服务是一种完全建立在现有互联网标准之上、松散耦合的、跨语言和平台的应用程序之间通信的标准方法。随着Web服务在电子商务等领域的不断发展,其安全性也越来越显示其重要
随着企业规模的不断扩大,企业信息系统的规模也随之扩大,由于实施数据管理系统的阶段性、技术性以及其它因素的影响,以至于即使在一个单独企业,某些部门自己就是一个数据源,
本文以西北工业大学航空微电子中心所承担的科研项目为基础,作者对在“龙腾”系列处理器上扩展多媒体处理功能进行了深入的研究。采用自上而下的设计方法,使用Verilog硬件描述
P2P和SIP是如今互联网、IT和通信界最热门的话题。P2P系统中没有中央服务器并且网络能够自组织,同时P2P系统具有高扩展性,健壮性和容错性等特性,给整个IT界带来了一场思想和计算
表单是一种普通的用户界面元素,为数据输入和输出提供了一种简单而直观的表现方式。表单在当今的软件应用程序中随处可见,任何软件系统的开发都需要创建一个或多个表单来收集用
工作流是一种反映业务流程的计算机化的模型,它是为了在先进计算机环境支持下实现经营集成与经营过程自动化而建立的可由工作流管理系统执行的业务模型。工作流管理系统是一