空间数据挖掘关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:furong99bb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间数据挖掘就是从空间数据库中抽取隐含的、以前未知、潜在有用的知识的过程,其应用涉及到国民经济与国防军事的各个方面,如地理信息系统 GIS、气象领域、远程遥感、交通控制、城市规划、环境研究、地理经济、军事战略评估等。因此空间数据挖掘是一个很有发展前景的领域,也是目前的研究热点,而以人工智能技术为基础的聚类、分类算法为空间数据挖掘提供了新的支撑技术。 正是在这种背景下对空间数据挖掘的相关关键技术进行研究。针对 DENCLUE(DENsity-based CLUstEring)算法的不足,提出改进的空间聚类算法 IDENCLUE;提出了基于改进的径向基函数神经网 IRBFNN 的空间数据分类算法;研究了空间数据挖掘中的相似性连接和 k 近邻查询;研究了基于 DM3_SDB 的空间数据挖掘原型系统DMSDM。 聚类是人类认知活动的一个重要手段。聚类分析方法按一定的距离或相似性测度将数据分成若干不同的组,由此发现整个数据集合的分布、结构与模式。聚类对象的相似性度量对聚类结果的影响很大,因而研究了聚类中的相似性度量问题,提出了广义距离概念。由于聚类是一种无监督分类法,对数据分析人员的相关领域知识要求很少,因而聚类已经成为空间数据挖掘的重要方法之一。其中,基于密度的聚类根据空间密度的差别,把具有相似密度的点作为聚类,是空间数据聚类常用的、行之有效的方法。而 DENCLUE 算法是一种泛化的基于核密度估计的聚类算法,具有支持大数据集、支持任意形状聚类、良好的抗噪声性能和满足高维数据等优良特性,还可以有效揭示数据分布的内在层次结构。不足之处是算法的参数依靠经验确定,选取困难,而合适的参数对聚类结果影响又很大,另外,算法没有充分利用高密度网格,因而算法的执行效率不高。改进的空间聚类算法 IDENCLUE 采用了基于密度熵的参数优化估计方法,通过预先给高密度网格中的点设置类标签,利用平均密度和密度的关系,在不影响精度的前提下将某些网格当成一个数据点来计算,降低了算法复杂度,提高了执行速度,有效改进了 DENCLUE 算法的不足。试验表明,改进的算法聚类结果更优,执行效率显著提高。 I<WP=4>分类在数据挖掘中是一项非常重要的方法。神经网络由于其学习和适应、自组织、函数逼近和大规模并行处理等能力,使得它广泛应用于模式识别、信号处理、系统辨识等方面,并且已经成功解决了许多应用领域的分类问题,因此神经网络十分适合于空间数据分类领域。然而因为神经网络把决策分类等知识分布式地存在连接权中,因而被许多人指责为一“黑合子”结构,难以理解其解释和决策过程,因而从神经网络中提取规则将是十分有意义的工作。提出了基于改进的径向基函数神经网 IRBFBNN的空间数据分类算法,在该模型中学习样本可以随时加入,学习算法也很快收敛。该分类模型的另一特色是,集神经网络,模糊集,和遗传算法的优点,利用基于离散求和层输出值的方法抽取隐含在神经网络中的规则,最终得到的分类规则是易于被人理解的模糊 if-then 规则。在这个系统中,首先对输入的数据作预处理,输入的连续属性的数据被模糊化,离散数据被重新编码,然后用改进的径向基函数神经网 IRBFBNN训练处理后的数据,再用基于离散求和层输出值的方法抽取隐含在神经网络中的规则,最后利用遗传算法来裁减比较弱的规则。实验表明该方法较传统的决策树分类方法有一定的优势。 相似性连接算法的对空间数据挖掘具有重要意义, k 近邻查询也是空间分析、空间数据挖掘以及地理信息系统等尤为关心的问题。对相似性连接处理来说,其度量运算也是不可忽略的费时操作,通过研究矩形在某一维相交的概率,提出了基于概率的优化维顺序的代价模型 ODOBP;通过分析基于 R-树的空间连接算法 RSJ,指出其算法的优化方法,并从理论上分析了优化的效果;通过对代价模型 ODOBP 和空间连接算法 RSJ 的研究,进而得到基于 R-树的空间相似性连接算法 RSSJ,并通过实验验证了算法 RSSJ 的优良性能;通过给出两个新的查询剪枝策略,提出了基于 R-树的空间k 近邻查询算法 IKNN。 讨论了空间数据挖掘系统设计的多方面问题,分析了 DM3 数据库的空间扩展功能,给出了 DM3 的空间扩展系统 DM3_SDB 的设计和实现;并着重讨论了基于DM3_SDB 的空间数据挖掘系统原型 DMSDM 的设计目标、设计原则、系统组成与结构、各个主要组成部分的设计,实现方案以及主要特色。
其他文献
20世纪以来,东北地区资源环境发生了巨大的变化,为全球范围内具有短时限人地关系高强度作用特征的典型地区之一。区域资源过量消耗、生态环境趋于恶化,可持续发展面临威胁,保
光伏电站无功补偿装置的型式一般为 SVG+FC 或全 SVG。针对北方大型光伏电站,依据站址光强辐射强度分布曲线,通过全寿命周期的经济及技术方面的对比,对无功补偿装置形式 SVG+
当品牌原有的影响力与危机问题的不断发酵产生叠加效应,更会加剧主体品牌受损,破坏原本的品牌形象。傲慢型公关往往出现在超大型主体,也正是他们对基础性问题的"满不在意",造
在整个纸艺活动中,起到画龙点睛作用的是活动的评价,多元化的评价是教学过程中的一个重要组成部分。本文围绕"坚持正面评价,尊重幼儿差异性的发展""优化动态式评价,促进幼儿
阐述了电磁兼容(简称EMC)技术在电子产品设计中的重要性和意义,简要介绍了目前车载设备的电磁兼容试验的标准,分析了工程机械仪表在设计及应用中存在的电磁兼容现象及潜在失
目的:R-脊椎蛋白1(R-spondin1,Rspo1)可能通过Wnt/β-catenin信号通路促进左心室的重塑和心脏功能的改善。体外培养高表达Rspo1的骨髓充质干细胞(BMSCs)的信号机制的修饰可能
<正>天津滨海新区行政审批局于5月20日正式挂牌成立。组建行政审批局后,滨海新区发展改革委、经济信息委、建设交通局、教育局、科委、财政局、民政局、司法局、人力社保局、
关于中医科学性的思考大连大学医学专科学校附属医院(116015)张敏智大连市第二人民医院(116011)王维姣纵观中医学发展的历程,清楚地看出,《黄帝内经》之所以成为中医发展史上的里程碑,就是因为它
随着传播技术的不断演进,各种依托于网络媒体的次生媒体层出不穷,逐步演变为受众获取社会信息的主要渠道。近年来,以抖音、快手以及火山小视频等为代表的移动短视频凭借其信
作文评价作为作文教学过程中重要的环节,它具有检测、诊断和反馈的功能。而如何在作文教学中优化作文评价策略以更好地发挥作文评价的作用,是本文主要探讨的问题。本文立足于作