论文部分内容阅读
随着信息化建设的不断发展,各行各业都有大量的数据被存储在各种数据仓库中,而且数据量每天都在不断的以惊人的速度增加,数据种类繁多,如何有效的利用这些信息,为本行业提供有用的决策信息,已经变得越来越关键。传统的方法已经不能有效的处理这些数据,数据挖掘技术应运而生,并显示出强大的生命力。数据挖掘是一门广义的交叉学科,可以通过综合运用统计学、粗糙集、模糊集、机器学习等多种技术从各类数据库中挖掘出先前未知的、平凡的、具有潜在应用价值的信息或模式,从而揭示出蕴涵在这些数据背后的内在联系和本质规律,指导人们有效地利用数据库中的数据并为正确决策提供依据。目前,数据挖掘研究主要集中在机器学习、统计、模式识别、人工智能、知识获取、数据可视化、智能数据分析、神经网络等领域,研究重点开始注重多种发现策略和技术的集成以及多种学科之间的相互渗透。 本文研究主要围绕基于数据元标准与粗糙集的数据挖掘技术,在数据元标准、粗糙集相关理论技术研究及对数据挖掘的本质和流程进行剖析的基础上,建立数据元标准、粗糙集与数据挖掘的有机联系。 第一、对数据元标准的相关理论进行研究讨论。数据元标准的建立是实现数据标准化过程中的关键部分,研究的对象是数据元和元数据,其目标是建立标准化的信息表达方法和存储交换格式,以实现信息的正确表达及无误差传播,实现信息在意义上、标准上和内容上的统一,为信息的共享和集成分析提供技术支撑,同时在数据元标准的基础上进行数据库的数据挖掘,为实际生产、过程控制、信息管理等提供预测未来趋势及行为的基于知识的决策。 数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元,是数据库中表达实体及其属性的标识符,在特定的语义环境中,数据元被认为是不可再分的最小数据单元。元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,它通过一系列元数据属性对数据元结构化信息进行描述并存储在数据元注册系统(数据字典)中。 XML(Extensible Markup Language,可扩展标记语言)定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。XML文档的属性结构和数据元的逻辑组成结构吻合,可以生动的描述数据元的元数据组成关系。因此,本文选择XML文档作为数据元的物理存储方式,在基于XML数据元存储的基础上进行信息抽取技术的研究,其中研究的重点和难点是数据元元数据设计;数据元基于XML Schema存储交换格式的映射模型、映射规则及其辅助生成算法。 第二、深入分析研究粗糙集基础理论知识。粗糙集(Rough Sets,RS)是1982年波兰华沙大学的数学家Pawlak Z教授提出的,它是一种处理模糊和不精确知识的数学工具,具有很强的定