基于XML和概念层次树的数据挖掘研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:info1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML以其可扩展性、灵活性、平台独立性、简单性、规范性等特点使其在互联网中的应用越来越广泛,尤其是在网络领域表示数据方面也越来越重要。所以,迫切地需要寻找一些有效的方法以便从大量的以XML形式表示的数据中提取一些有价值的和潜在的信息与知识。但是在WEB上众多的信息数据中以XML形式表示的数据不仅很复杂,而且没有特定模型来描述数据,那些数据都是半结构化甚至是无结构的数据。因此,不同于传统数据库上的数据挖掘技术,面向XML的数据挖掘技术不仅要求更好地对半结构化数据进行集成与组织,同时对挖掘算法的性能也提出了新的挑战。本文基于XML的数据挖掘知识并结合概念层次树的相关知识,提出了一种基于XML和概念层次树的数据挖掘系统框架,并按照该框架中的每一个步骤依次阐述了相关实现技术,主要包括数据预处理、数据存储,XML数据挖掘和知识存储表示。在XML数据挖掘中结合概念层次树和关联规则的相关技术提出了一种基于概念层次树的XML数据挖掘算法,该算法通过概化操作,不仅降低了时间复杂度,并且挖掘出更容易被理解和接受的规则,对基于XML数据的关联规则的挖掘具有一定的理论价值和实际意义。最后设计实现了一个电子商务数据挖掘系统,来验证分析本文提出的数据挖掘系统框架和算法。
其他文献
随着全球经济一体化,各个行业的竞争也越来越激烈。对于机械加工企业来说,如何提高生产率、产品质量和减少生产成本,成为企业关注的焦点话题,也成为企业生存的根本因素之一。
随着多媒体技术和网络的快速发展,图像信息资源大量增多,图像的有效管理和检索变得越来越重要。用户如何从海量图像数据库中快速而又淮确地检索出需要的图像,是目前研究的一
传统的信息检索技术往往是集中式的,随着数据量的指数增长,这种集中式的数据存放对于数据库的更新维护带来很大的难度,同时检索查询操作也变得非常费时,这造成了整个系统性能
话题识别与跟踪,作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线、广播、电视等新闻媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的
缓冲区溢出攻击是利用缓冲区溢出漏洞所进行的攻击。缓冲区溢出是指当计算机向缓冲区内填充数据时超过了缓冲区本身的容量,溢出的数据覆盖在合法数据上。缓冲区溢出是一种非常
图像数据包含着丰富的信息,但相应的数据量也非常大。因此,在实时应用中,对图像的检索具有了更高的要求。现有的基于内容的检索方式(CBIR),虽然检索效果相对较好,但需要对图
选举是当今公民实现民主的重要方式,相比于传统选举方式,电子选举以密码学为基础,可以有效避免在各个环节中出现徇私舞弊现象,并且通过使用高效的计算机来对选票进行最后的统
随着信息化建设的深入和网络技术的发展,相当数量的企业积累了大量的存储在不同平台、依赖于不同数据库管理系统的数据和众多非结构化数据(如XML文档、文本文件等)。如何通过
随着互联网应用的飞速发展,数据量的积累也越来越多。如何更高效快捷地从海量数据中得到有价值的信息并将其应用到相关领域中,成为当前范围内急需解决的前沿问题。为了解决这
隐藏在普通搜索引擎的背后,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到的信息,称为Deep Web。当前对Deep Web数据抽取的研究是一个比较热门的话题。随着页