数据资源聚类预处理及其应用研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:a83017396
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
水呵水,到处都是水,船上的甲板却在干涸;水呵水,到处都是水,却没有一滴能解我焦渴。数据呵数据,到处都是数据,各类用户却在迷茫;数据呵数据,到处都是数据,却没有任何提示能帮我决策。美国前副总统Al Gore在1998年1月31日所做《数字地球:二十一世纪认识我们的星球》[Gorel 998]的演讲中指出:一场新的技术革新浪潮正允许我们能够获取、储存、处理并显示有关地球的空前浩瀚的数据以及广泛而又多样的环境和文化数据信息,而充分利用这些浩瀚数据的困难之处在于把这些数据变得有意义——即把原始数据变成可理解的信息。今天,我们经常发现我们拥有很多数据,却不知如何处置。现在,我们贪婪地渴求知识,而大量的资料却闲置一边,无人问津。没有物质,就什么都不存在;没有能源,就什么都不会发生:没有信息,就什么都没有意义[Oet1965]。作为三大资源之一的信息,对于我们的生活越来越具有深远的影响。面对如此丰富、繁杂的数据,如何才能从中提取有价值的信启、和知识,由此诞生了一个新的研究方向:基于数据库的知识发现KDD(Knowledge Discoveryin Database)以及相关的数据挖掘DM(Data Mining)理论和技术。数据资源(Data Resource)作为信息领域基本的研究对象,是从资源的角度对数据及其本身所存在的状态给予的重新认识与高度概括。综合利用各类有效的KDD和DM技术来提高数据资源本身的质量、增强数据对象的利用效率成为数据资源有效开发利用的主要研究方向。数据资源的预处理作为KDD和DM过程的重要环节,聚类分析作为KDD和DM领域成熟的技术,这两者相结合的研究具有重要的探讨意义和应用价值。本文将聚类分析引入数据资源的预处理,进行了多方面的研究,取得以下主要成果:1.借鉴分裂型层次化聚类方式,分别从平面、立面、空间等三个层次综合构建基于层次分析法的数据库聚类预处理DCP-AHP方法,突出运用层次化思维来迭代评估目标,剔除相异度高的数据对象集合,达到聚类清理数据对象集合的目的,减少定性问题定量化后误差的影响。2.按照相关性最小原则,提出数据库主成份提取的聚类预处理DCP-PCE方法进行高维数据系统的降维处理,获得数据对象变异最大方向的投影作为特定数据对象集合中的各个主成份,实现分层次的主成份聚类提取;同时DCP-PCE方法也验证了主成份对于原有信息全面覆盖的特性,同步解决了综合变量覆盖和降维问题,降低了数据对象集合的相异度和维度,实现了数据对象集合的聚类归约。3.利用数据对象的物理存储属性本身所具有的“0、1”特性,针对同体不同源数据对象SEDS提出同体不同源数据对象聚类数化NC-SEDS算法,将数据资源中所有数据对象都通过数据对象预处理的过程转换成数字状态,然后利用数化后数据对象的数字状态作为聚合归类的依据,在不考虑数据对象其他属性的情况下,提高同体不同源数据对象SEDS的凝聚程度,达到降低比较次数、总体执行时间的目的,实现数据对象的聚类集成。4.为了贯彻“复杂问题求解”的思想,提出了基于本体核与直方图的聚类预处理CPOKH方法。在对数据对象进行聚类预处理时,首先得到弱量本体核的客体数据频数,然后根据用户明确的需求信息,获得所有需要的弱量本体核,并将其结合成强量本体核,最后通过“直方图”的构建与分析,明确数据对象的相关类属。5.借鉴“能量”与“碰撞”的基本理念,以数据资源预处理得到的数据对象类或簇作为主要研究对象,构建了基于能量的“有效”动态阈值,实现了基于能量碰撞的聚类优化COEH策略;对已经具备聚类初步特征的数据空间进行用户主题需求的能量驱动,把聚类内部的数据对象与孤立点数据对象放在统一的认识平台中加以统筹处理,保证了数据对象的聚类优化。同时,作为理论成果的应用研究,本文选择了高校教育评估体系作为应用研究对象,将聚类分析技术引入高校数据资源的预处理环节,给出了应用实例,为有效利用现有数据资源,理性分析高校各方面工作的成效,深入探索学生培养的模式提供了有效的分析方法。
其他文献
IPC诚邀业内所有专注于中国电子行业发展的各位中国工程师和中国各大专院校师生为首届IPC学术论文竞赛积极投稿。由全球著名的业界专家评审团,将根据作者提交的论文摘要对投
为保护被征地农民的合法权益,国土资源部日前下发了《关于完善征地补偿安置制度的指导意见》,要求各地采取切实措施,保证被征地农民原有生活水平不降低。
CT引导下经皮肺穿刺活检是一种准确、快捷、安全的诊断方法,已广泛应用于肺结节和肿块的诊断,对直径≤3cm肺小结节的诊断价值更大.本文分析影响肺小结节穿刺活检准确率及并发