论文部分内容阅读
迅猛发展的计算机技术、网络技术和传感器技术使得诸如天文、军事、生物、医疗、管理等学科的数据采集和数据传输更为便利和快捷,从而使得数据日趋复杂,规模不断增长,形成了大量类型复杂、形式异构的高维海量信息。从数据的描述看,数值型、名义型、区间型、缺省型、集值型等多种类型数据并存构成了复杂数据的主要特征。对复杂数据的建模、分析与利用已成为当今诸多应用领域知识发现面临的主要任务,而数据的复杂性是知识发现面临的主要困难之一。复杂数据已成为现代社会中数据资源和知识发现的主体。复杂数据的数据建模是其分析与利用的基础。近年来,借鉴认知科学的研究成果来创新数据建模理论与方法越来越受到人们的重视。基于认知科学的数据建模主要从两个方面进行研究,一类着重于感知机理的理解与模拟,另一类着重于认知机理的理解与模拟。作为人类认知的重要特征之一,粒化认知对复杂数据建模具有重要的借鉴作用。借鉴人类的粒化认知机理,有望诞生新的数据建模理论与方法。开展基于粒化机理的复杂数据建模研究,关键是要解决如下三个核心科学问题:·如何有效地进行复杂数据信息粒化?·如何分析粒化的不确定性?·如何借鉴粒化机理进行数据建模?有鉴于此,本文面向包含数值型、名义型、区间型、缺省型、集值型在内的复杂数据,借鉴人类的粒化认知机理,紧紧围绕三个核心科学问题,从信息粒化、粒化不确定性、建模策略与模型选择四个层次展开系统研究,获得的主要研究成果和创新概括如下:一、完善了复杂数据的信息粒化方法与算法体系,深刻揭示了复杂数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础。提出了如何有效地进行带测量误差的数据聚类问题,给出了一种适合于带测量误差数据的聚类算法。实验分析表明:考虑测量误差的聚类算法可能比仅考虑测量值的聚类算法所获得的聚类结果更加贴近于数据的真实分类;误差数距离提供了度量带测量误差对象的差异性的有效方法。发展了一类基于选举类别代表策略的κ-representatives算法,在半监督环境下该算法在名义型、集值型以及缺省型数据的聚类分析中,其聚类精度、纯度、召回率与迭代次数四个聚类性能评价指标都显示了明显的优势。特别地,由于这个聚类策略回避了数据的空间结构分析,该算法不仅可用于单一数据类型的聚类分析,而且也可用于包含数值型、区间型、名义型、集值型和缺省型等多种类型并存的复杂数据的聚类分析。二、建立了粒空间的运算方法,从代数角度和几何角度刻画了粒空间的结构特征;揭示了信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。在粒空间结构研究方面,给出了不同类型粒空间统一的知识表示方法;提出了交、并、补、差四个粒空间算子,给出了精确/模糊粒空间之间的合成、分解与转换运算方法,证明了所有粒空间与这些算子构成了完备有补格,从代数角度揭示了粒空间的层次结构特性;提出了知识距离与模糊知识距离的概念,在其意义下精确/模糊粒空间是一个距离测度空间,从几何角度揭示了粒空间上的几何结构特征。在信息粒度研究方面,系统建立了精确粒空间与模糊粒空间的信息粒度度量方法;给出了精确/模糊信息粒度的公理化方法,统一了不同类型粒空间背景下信息粒度的相关度量,深刻揭示了精确/模糊信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。三、借鉴人类的粒化认知能力,发展了基于多粒度认知的、基于动态粒度认知的以及基于序化粒度认知的三大类复杂数据建模理论与方法,极大地推动了基于粒化认知的数据建模发展。借鉴人类的多粒度认知能力,给出了基于“求同存异”的、基于“求同排异”的以及带概念描述的三类多粒度数据建模方法,极大地丰富了基于粗糙集的建模理论与方法,可以广泛应用于诸如分布式信息系统、多智能Agent等多粒度环境下的数据分析。借鉴人类的动态粒度认知能力,建立了动态粒度下的概念逼近和决策逼近方法,提出了通用粗糙特征选择加速器,为高效地进行特征选择提供了有效方法。理论分析和实验结论表明:1)将加速器嵌入到每个特征选择方法中后,改进的算法能够保持原有算法的特征选择结果;2)与原有算法相比,带加速器的特征选择算法的耗时大大减少;3)数据规模越大,该加速器的优势越明显。提出了一种特征空间降维和样本空间降维相融合的结构降维策略,并设计了一种高效规则获取算法,分析表明该算法无论从计算时间还是决策性能都具有一定优势,为面向高维海量数据的知识发现提供了高效方法。借鉴人类的序化粒度认知能力,给出了区间型、合取集值型与析取集值型三类数据的描述语义,建立了基于序化粒度的排序决策与分级决策模型,提出了基于保序原理的特征选择方法,有效解决了序信息系统与序决策信息系统中的特征选择问题。研究结果进一步完善了复杂数据的排序决策、分级决策建模的理论与方法,也为有序分类、有序聚类等相关建模问题提供了可资借鉴的手段。四、建立了基于整体决策性能评价的模型选择方法,为知识发现的模型选择提供了理论依据与技术支持。对于完备决策信息系统,给出了整体确定度、整体协调度和整体支持度三个完备决策规则集决策性能评价指标;对于非完备决策信息系统,提出了用极大相容块刻画非完备决策规则的方法,给出了整体确定度、整体协调度和整体支持度;面向分级决策问题,给出了序意义下的整体确定度、整体协调度和覆盖度三个优势规则集决策性能评价指标。理论分析和实验结论表明,提出的评价方法都明显优于基于近似精度和近似质量的评价方法,可为特定问题的模型选择提供理论依据与技术支持。通过以上系统研究,从揭示人类的粒化认知机理出发,论文在信息粒化、粒化不确定性、建模策略与模型选择四个数据建模阶段都获得了重要的研究成果,初步形成了一个基于粒化机理的数据建模理论与方法体系,对面向复杂数据的数据建模有着重要的理论意义,同时对提高海量信息处理的效率具有实际的应用价值。