复杂数据的粒化机理与数据建模

来源 :山西大学 | 被引量 : 69次 | 上传用户:fondfood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迅猛发展的计算机技术、网络技术和传感器技术使得诸如天文、军事、生物、医疗、管理等学科的数据采集和数据传输更为便利和快捷,从而使得数据日趋复杂,规模不断增长,形成了大量类型复杂、形式异构的高维海量信息。从数据的描述看,数值型、名义型、区间型、缺省型、集值型等多种类型数据并存构成了复杂数据的主要特征。对复杂数据的建模、分析与利用已成为当今诸多应用领域知识发现面临的主要任务,而数据的复杂性是知识发现面临的主要困难之一。复杂数据已成为现代社会中数据资源和知识发现的主体。复杂数据的数据建模是其分析与利用的基础。近年来,借鉴认知科学的研究成果来创新数据建模理论与方法越来越受到人们的重视。基于认知科学的数据建模主要从两个方面进行研究,一类着重于感知机理的理解与模拟,另一类着重于认知机理的理解与模拟。作为人类认知的重要特征之一,粒化认知对复杂数据建模具有重要的借鉴作用。借鉴人类的粒化认知机理,有望诞生新的数据建模理论与方法。开展基于粒化机理的复杂数据建模研究,关键是要解决如下三个核心科学问题:·如何有效地进行复杂数据信息粒化?·如何分析粒化的不确定性?·如何借鉴粒化机理进行数据建模?有鉴于此,本文面向包含数值型、名义型、区间型、缺省型、集值型在内的复杂数据,借鉴人类的粒化认知机理,紧紧围绕三个核心科学问题,从信息粒化、粒化不确定性、建模策略与模型选择四个层次展开系统研究,获得的主要研究成果和创新概括如下:一、完善了复杂数据的信息粒化方法与算法体系,深刻揭示了复杂数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础。提出了如何有效地进行带测量误差的数据聚类问题,给出了一种适合于带测量误差数据的聚类算法。实验分析表明:考虑测量误差的聚类算法可能比仅考虑测量值的聚类算法所获得的聚类结果更加贴近于数据的真实分类;误差数距离提供了度量带测量误差对象的差异性的有效方法。发展了一类基于选举类别代表策略的κ-representatives算法,在半监督环境下该算法在名义型、集值型以及缺省型数据的聚类分析中,其聚类精度、纯度、召回率与迭代次数四个聚类性能评价指标都显示了明显的优势。特别地,由于这个聚类策略回避了数据的空间结构分析,该算法不仅可用于单一数据类型的聚类分析,而且也可用于包含数值型、区间型、名义型、集值型和缺省型等多种类型并存的复杂数据的聚类分析。二、建立了粒空间的运算方法,从代数角度和几何角度刻画了粒空间的结构特征;揭示了信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。在粒空间结构研究方面,给出了不同类型粒空间统一的知识表示方法;提出了交、并、补、差四个粒空间算子,给出了精确/模糊粒空间之间的合成、分解与转换运算方法,证明了所有粒空间与这些算子构成了完备有补格,从代数角度揭示了粒空间的层次结构特性;提出了知识距离与模糊知识距离的概念,在其意义下精确/模糊粒空间是一个距离测度空间,从几何角度揭示了粒空间上的几何结构特征。在信息粒度研究方面,系统建立了精确粒空间与模糊粒空间的信息粒度度量方法;给出了精确/模糊信息粒度的公理化方法,统一了不同类型粒空间背景下信息粒度的相关度量,深刻揭示了精确/模糊信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。三、借鉴人类的粒化认知能力,发展了基于多粒度认知的、基于动态粒度认知的以及基于序化粒度认知的三大类复杂数据建模理论与方法,极大地推动了基于粒化认知的数据建模发展。借鉴人类的多粒度认知能力,给出了基于“求同存异”的、基于“求同排异”的以及带概念描述的三类多粒度数据建模方法,极大地丰富了基于粗糙集的建模理论与方法,可以广泛应用于诸如分布式信息系统、多智能Agent等多粒度环境下的数据分析。借鉴人类的动态粒度认知能力,建立了动态粒度下的概念逼近和决策逼近方法,提出了通用粗糙特征选择加速器,为高效地进行特征选择提供了有效方法。理论分析和实验结论表明:1)将加速器嵌入到每个特征选择方法中后,改进的算法能够保持原有算法的特征选择结果;2)与原有算法相比,带加速器的特征选择算法的耗时大大减少;3)数据规模越大,该加速器的优势越明显。提出了一种特征空间降维和样本空间降维相融合的结构降维策略,并设计了一种高效规则获取算法,分析表明该算法无论从计算时间还是决策性能都具有一定优势,为面向高维海量数据的知识发现提供了高效方法。借鉴人类的序化粒度认知能力,给出了区间型、合取集值型与析取集值型三类数据的描述语义,建立了基于序化粒度的排序决策与分级决策模型,提出了基于保序原理的特征选择方法,有效解决了序信息系统与序决策信息系统中的特征选择问题。研究结果进一步完善了复杂数据的排序决策、分级决策建模的理论与方法,也为有序分类、有序聚类等相关建模问题提供了可资借鉴的手段。四、建立了基于整体决策性能评价的模型选择方法,为知识发现的模型选择提供了理论依据与技术支持。对于完备决策信息系统,给出了整体确定度、整体协调度和整体支持度三个完备决策规则集决策性能评价指标;对于非完备决策信息系统,提出了用极大相容块刻画非完备决策规则的方法,给出了整体确定度、整体协调度和整体支持度;面向分级决策问题,给出了序意义下的整体确定度、整体协调度和覆盖度三个优势规则集决策性能评价指标。理论分析和实验结论表明,提出的评价方法都明显优于基于近似精度和近似质量的评价方法,可为特定问题的模型选择提供理论依据与技术支持。通过以上系统研究,从揭示人类的粒化认知机理出发,论文在信息粒化、粒化不确定性、建模策略与模型选择四个数据建模阶段都获得了重要的研究成果,初步形成了一个基于粒化机理的数据建模理论与方法体系,对面向复杂数据的数据建模有着重要的理论意义,同时对提高海量信息处理的效率具有实际的应用价值。
其他文献
话语标记语作为独立成分,游离句子之外,不影响句子的真值,不添加新的命题内容,其本身没有概念义,但在会话交际时,起着衔接和表达情感的语用功能,是话语表达不可缺少的语用成
法人名誉权诉讼在近年来发生越来越频繁,在司法实践中由于标准、理解各地不尽一致,对法人名誉权的上诉及社会与理论界对现有判例的异议经常出现,需要对法人名誉权进行专门研
目的探讨冠状动脉易损斑块与血中单核细胞趋化活性的相关性及单核细胞趋化因子(MCP-1、RANTES和Fractalkine)在动脉粥样硬化斑块不稳定中作用的分子机制。方法对50例稳定型心
目的分析半髋关节置换与锁定钢板治疗股骨粗隆间骨折的疗效差异。方法选取股骨粗隆间骨折患者50例,随机采用半髋关节置换与锁定钢板,对两组患者的手术时间,术中出血量,术后并
联想之所以在高速发展的过程中没有失去联想,其秘密在于联想的高级人才都是自己从内部培养。在培养人才的过程中,联想的企业文化会一代一代地继承与被继承,联想的人才也能更
目的 :探讨冲任经脉与中医妇科的关系。方法 :通过医学经典著作和医学专著理论 ,结合自己的临床实践论述冲任经脉与妇科的生理、病理关系及临床意义。结果 :冲任失调是导致各
本文针对炸礁施工区距离海水养殖区仅76~450m的复杂情况,通过理论分析和爆破试验,获取了爆破海区鱼类受水冲波损伤的振动强度控制标准,及一定条件下钻孔爆破水中冲击波传播规
古典的大学传统以完整的人的培养作为大学理念的核心。当高等教育从精英教育走向大众教育之时,大学必然要适应普通个人对职业教育的需求,使得古典大学教育传统难以为继,导致
“抓大放大”,真正搞活中小企业是我国目前经济体制改革的方向,而金融支持是各国扶持中小企业发展的普遍做法,多事业务中多事租赁业又是对中上企业支持最便捷而有效的方法之一,不
摘要内容:《夕阳箫鼓》是我国琵琶古曲。它那优美、淡雅的旋律深得古代文人的喜爱,与我国古代文学有着千丝万缕的联系。该曲几易其名无不源于古代名诗;多次变化的小标题精致