【摘 要】
:
特征选择方法是指从数据的初始特征集中,根据一定的方法选择出符合某种标准的特征子集的方法。作为一种常见的数据预处理方法,特征选择是数据降维中一种重要的手段,在机器学习中数据降维处理发挥着重要的作用,其可以有效过滤数据中噪声,提升后续机器学习的效率。对于空间数据而言,传统的特征选择方法没有考虑到空间数据点之间的空间位置关系。通常空间数据都有着特定的空间分布特征,空间自相关性和空间异质性导致空间对象存在
论文部分内容阅读
特征选择方法是指从数据的初始特征集中,根据一定的方法选择出符合某种标准的特征子集的方法。作为一种常见的数据预处理方法,特征选择是数据降维中一种重要的手段,在机器学习中数据降维处理发挥着重要的作用,其可以有效过滤数据中噪声,提升后续机器学习的效率。对于空间数据而言,传统的特征选择方法没有考虑到空间数据点之间的空间位置关系。通常空间数据都有着特定的空间分布特征,空间自相关性和空间异质性导致空间对象存在一定的依赖关系,会在一定程度上呈现出同类聚集的特性。但对于通用数据的研究都没有假设数据点的分布特征,或者默认假设其均匀随机的分散在空间之中。传统特征选择方法在对空间数据进行特征选择时没有考虑到这一点,无法有效的利用空间数据的分布模式选择出更适合空间数据的特征。因此,使用传统方法面向空间数据直接进行特征选择时,其结果对目标的解释能力并不能真实的反映地理现象的实际情况。为了在特征选择过程中充分利用数据点之间的空间位置关系,本文旨在提出一种面向空间数据的新的特征选择方法(RFSM)。该方法的目的是为了探究空间数据点间位置关系对于空间数据进行特征选择产生的影响。与直接利用传统特征选择方法相比,RFSM方法考虑了空间数据特有的分布模式,重点研究特征选择过程中临近数据点产生的影响。实验目的是为了在特征选择的过程中充分利用区域内数据点间的空间依赖性并且忽略远处数据点对该区域数据造成的影响。RFSM方法将采取如下步骤进行。首先对每一数据点建立空间邻接矩阵,其次对该区域内的数据点进行传统方法的特征选择,最后综合得到的结果并使用机器学习分类算法对不同算法得到的结果加以比较。实验表明,RFSM框架较为稳定,当选择出空间数据的特征子集维数比较小时,算法在RFSM框架下选择出的特征子集分类预测性能相较原算法而言有一定的提升。此外,本文还设计并实现了基于Python的空间数据区域性特征选择系统,系统面向空间数据,旨在利用空间数据的位置关系进行特征选择。系统选用的GUI框架为Tkinter并且使用GDAL数据库来管理矢量数据,确保了系统具有良好的兼容性和可移植性。
其他文献
机器自动情绪识别因其在人机交互中的潜在应用而受到越来越多的关注。目前,情绪识别可通过多种信息来实现,如面部表情、语音语调、身体姿态以及人体各种生理信号等。相比较而言,皮层脑电作为中枢神经生理信号,调节与情绪相关的递质分泌和大脑的边缘系统,能够客观反映人的情绪状态变化,从脑电信号中提取有效特征并进行情绪识别在人机交互和精神心理疾病监测中具有重要意义。论文针对维度情感模型的构建以及脑电信号情绪识别中特
5G网络发生故障可能影响全网稳定性和服务质量,其故障发现与修复是5G网络运维管理的关键之一。基于历史故障发生前的网元关键绩效指标(Key Performance Indicator,KPI)变化以及设备告警信息、指标统计特征、自动异常检测、指标关联特征、告警编码特征等,提出了5G核心网网元多维特征融合故障预警方法,构建了多维特征空间训练故障预警模型。最后,针对现网运行数据,选取了6类网元并进行了实
图像的深度估计是计算机视觉领域一个重要的研究课题。挖掘二维图像中的深度信息,可以帮助计算机理解场景的三维结构,在智能机器人技术、虚拟现实、增强现实、场景的三维重建、汽车自动驾驶等众多领域都有广泛的应用。相较于基于双目、多目的深度估计方法,基于单目图像的深度估计对设备和环境要求较低且易于实现,因此具有更加广泛的应用价值。然而,只通过单个视角的二维图像估计三维的立体信息,从几何计算的角度来看是非常巨大
人们生活水平的提高以及商品的种类的增加,使得消费者对于商品的要求也越来越高。其中,琳琅满目的商品种类和对商品五花八门的描述,使得对于商品识别的研究也有了越来越重要的现实意义。本文基于深度学习的方法对商品图像识别以及商品图像中的文本识别进行了相关研究,与传统的图像识别以及文本识别算法对比,利用基于卷积神经网络的图像及文本识别算法进行分析,提出本文研究方法。1)为了降低噪声对图像识别准确率的影响,本文
深度学习在图像识别、机器视觉、自然语言处理等领域取得了巨大的成功,解决了很多复杂的难题,使人工智能技术取得了革命性的突破。然而,复杂的深度模型日益出现“膨胀”的趋势,模型越来越大、越来越复杂,对计算力要求也越来越高。如何有效地减少复杂模型的参数量和推理时间成为目前人工智能亟待解决的关键问题。特别是深度模型在在线学习、增量学习等实时应用与移动手机、可穿戴设备等这些边缘人工智能设备上的实施与部署,如何
计算机断层成像(Computed Tomography,CT)的出现,极大地促进了医学影像技术的发展,对于各种疾病的诊断治疗,也具有十分重要的意义。因X射线的辐射对人体有潜在的致病风险,因此低剂量CT成为了当前研究的重点。稀疏重建,即用从稀疏角度下采集的投影重建图像,是实现低剂量CT的有效方法,然而,经典的解析法稀疏重建的图像中一般含有严重的条状伪影,导致无法进行正确的疾病判读。2006年以来,深
传统监督学习方法需要利用大量有标记的样本进行学习,但是得到具有较强泛化能力的模型往往需要大量的标记样本。在许多学习任务中,标记样本的获取需要大量的人力物力,相对而言无标记样本的获取却较为容易。半监督学习正是一种综合利用标记样本和无标记样本进行学习的方法。目前,半监督深度学习中的研究热点之一集中在一致性假设的应用。所谓一致性假设,是指在模型训练过程对样本进行数据增强,并保证数据增强前后的模型预测结果
近年来,在机器学习等领域中,针对图像数据的分类识别已经成为广大研究者的重点关注问题。传统的算法大都基于欧氏空间计算样本相似性,虽然简单有效,但是由于没有考虑图像数据的高维、稀疏和流形等特性,无法准确地度量样本点之间的相似性。越来越来多的研究者基于黎曼流形的度量学习方法展开了大量的研究工作。流形假设是指人类所看到的数据为嵌入在高维空间中的低维流形。相对于传统算法而言,黎曼流形度量学习可以很好的利用样
近年来,随着人工智能的快速发展,智能解答类问题越来越受人瞩目,其中机器阅读理解成为该领域的重要研究分支。针对高考语文阅读理解任务,本文工作研究科技文中选择题的自动解答。该类型题目一般包含1篇背景材料、1个题干和4个候选选项,要求机器根据题干,基于对背景材料中相关内容的理解,从4个候选选项中选出一个正确选项。本文提出了一个基于关键词语义扩充的选择题解题模型,通过基于外部知识库的关键词语义扩充,丰富材
计算机断层成像(Computed Tomography,CT)作为辅助医生诊断的一项技术被广泛应用于医疗实践中,但是在其扫描过程中过高剂量的辐射会对患者的身体造成严重的伤害,增加患癌的风险。低剂量CT可以通过降低辐射剂量或者减少投影个数来实现。然而,每个角度下低剂量辐射所获取的投影噪声较大,致使重建出来的图像包含较大噪声,影响后续诊断。高精度低剂量CT重建的一种有效途径是除去低质量图像中存在的噪声