论文部分内容阅读
数据挖掘旨在将数据转换为有用信息,是目前信息化社会中发现知识的重要手段之一。随着信息技术的迅猛发展,尤其是Internet和数据库技术的快速进步,信息化产业中可获取到的数据正呈现着爆炸性的增长趋势,维数也迅速增高,使得“海量高维”的数据时代已经到来。数据集的海量高维导致了难以与之匹配的大计算量及大量的传统挖掘算法很难适应,然而各行各业尤其日常生活中对信息的庞大需求却与日俱增,这为传统的数据挖掘技术带来了全新而巨大的挑战,探索快速且有效的数据挖掘算法已成为一个全球性的热点研究领域。特征选择是数据挖掘中一个至关重要的数据预处理技巧,如何高效可行地实现对海量高维数据集的有效特征选取,也是目前特征选择研究中面临的主要困难之一。为此,本文以粗糙集理论为研究工具,针对面向海量数据集的特征选择进行了系统性的研究,主要取得了以下的研究成果。(1)构建了一个基于分解和融合的海量数据集高效特征选择框架。对给定的海量规模数据集,借鉴于使用样本表征整体的思想,通过深入分析如何将数据集由一个大的信息粒细化为多个可有效表征其整体的小的信息粒以及如何融合多个小信息粒结果这两个核心问题,构造了多粒度视角的高效特征选择框架,为大规模数据背景下的数据分析提供了可以借鉴的新途径。(2)基于高效特征选择框架,通过将代表性的算法嵌入其中,分别发展了面向海量规模符号数据集和混合数据集的高效粗糙特征选择算法。发展的高效算法可以高效地找到一个有效的近似结果,尤其处理大规模数据集,其高效性更加明显。相关实验结果也进一步验证了高效算法的高效性和可行性。(3)针对动态数据集,分别构造了三种代表性信息熵的组增量机制、维数增量机制以及随数据取值动态变化的更新机制。针对数据动态更新的三种主要情况,通过分析动态数据集中基本信息粒以及粒空间结构的变化,分别建立了三种代表性信息熵基于上述三种变化情况的更新机制。(4)基于信息熵的更新机制,定义了特征重要度的度量,并依此分别设计了粗糙特征选择的组增量更新算法、维数增量式更新算法以及随数据取值动态变化的更新算法。理论分析和相关实验结果也都进一步验证了算法的有效性和高效性。更新原理为动态性数据的数据分析提供了新的方法和理论支撑,为多源数据集的信息融合提供了新的研究路径。本文在系统分析了现有特征选择算法在处理海量高维数据集中的局限性,基于粗糙集理论,深入探索了如何构建高效的特征选择算法,并通过借鉴一些其它学科中的处理方法,发展了一系列高效的粗糙特征选择算法。相关的实验结果也都进一步验证了本文中新算法的可行性和高效性。因此,本文的主要研究内容及相关成果为海量高维数据集的知识发现提供了新的处理技巧和研究思路。