基于灰色关联分析的缺失数据填补研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:apzhc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中,由于机械和人为等诸多原因,导致收集到的数据中常常包含缺失值,且缺失值的存在还会极大地降低算法的有效性,因此如何处理缺失数据已成为一个不可避免的问题.填补缺失数据是最为常见的处理方法,即利用已知数据的信息得到的估计值来代替缺失值,不会造成信息的流失,且具有重要的研究价值.本文针对缺失数据的填补方法进行研究,主要的工作如下.首先,针对缺失数据提出了一个新的缺失值填补算法,名为灰色类中心缺失值填补方法(GCCMVI),其主要思想是利用类中心,标准差和阈值来填补缺失值,类中心是由特征均值构成的向量.算法大概过程为,先用类中心代替缺失值,然后根据阈值决定是否在原有的估计值上加上或减去标准差,阈值是实例与相应类中心相关性的中值,本文用灰色关联度来计算相关性.由于均值和标准差分别是衡量数据集中趋势和离散程度的统计量,因此所提出的缺失值填补方法是一个考虑了数据分布特征的基于统计技术的方法.为了验证算法的有效性,人为的引入缺失值,且在缺失值被填补后,利用支持向量机(SVM)分类器进行分类,以分类精度和填补效果作为评估准则,在29个数据集上与其他六种缺失值填补方法进行对比分析,实验结果表明新提出的方法提高了分类精度和填补效果,比其他方法有效.其次,对新提出的方法进行更进一步的改进.为提高算法的有效性,引入标准差的权重来控制标准差的量级大小,使得填补后的数据集与原始数据集有更为贴近的离散程度.衡量填补方法的填补效果需要对比真实值与填补值,因此会人为的引入缺失值且记录原来的真实值,增加三种缺失机制的模拟实验.此外利用过采样技术与所提方法的结合来处理同时存在缺失值和不平衡问题的数据,以此扩展新方法的使用范围.最后,对本文所研究的内容进行了简要总结,分析存在的不足且给出下一阶段的研究方向和目标.
其他文献
心理弹性是个人面对生活压力和挫折时具有良好的“反弹能力”。本研究在心理弹性理论的指导下,为了解流动儿童心理弹性的特点,探索流动儿童歧视知觉、心理弹性与社会适应的关系,对681名初中生采用了《个体歧视知觉问卷》《青少年心理韧性量表》以及《少年儿童社会适应量表》进行问卷调查。为促进流动儿童心理弹性的提升,本研究还进行了流动儿童心理弹性团体干预的实验研究。通过对研究结果的分析,本研究得出以下结论:(1)
耕地是当代中国最宝贵的自然资源之一,是粮食安全之本,生态安全之基。1978年来,我国出台保护耕地、节约集约用地等政策,为粮食安全做出了巨大贡献,为我国成为世界第二大经济体提供支撑。由于我国在快速发展中出现用地粗放、浪费用地,甚至严重的破坏、损毁耕地的情况,所以需创建以经济健康发展为方向,以生态文明绿色建设为根本,以科技创新为支撑新时代的耕地保护与制度建设。围绕“山水林田湖草,生命共同体理念,实行耕
云计算在满足数据存储和数据共享需求的同时,也承担了管理隐私数据的重任.然而,在云计算中,隐私保护问题一直不容乐观,隐私泄露案例也屡见不鲜.因此,云环境下保障数据安全成为云计算的首要任务.在基于密码的保护技术中,去中心的属性基加密(D-MA-ABE)由于不仅能支持细粒度访问控制而且还可以实现用户隐私保护而备受关注.本文以数据隐私保护为研究目标,设计了支持隐私保护的去中心属性基加密方案,具体工作如下:
时序行为检测任务的目标是,对输入视频中发生的每个行为进行分类,同时检测每个行为发生的起止时间。基于训练阶段所使用标注的不同,时序行为检测可以分为全监督和弱监督两个子任务。大多数全监督子任务的研究方法使用滑动窗口来得到一系列候选区域,然后对候选区域进行分类和回归。然而,滑动窗口方法灵活性差,需要针对具体的数据集来设置不同的窗口大小。弱监督子任务的研究方法通常基于多实例分类网络,这种方法通常会导致检测
随着万物互联时代的到来,我国经济飞速发展,与之而来的是大量的经济纠纷,普通民众法律维权意识日渐成熟,更多的民众希望通过参与诉讼的方式来解决纠纷,以致法院收案数量逐年大量上升,其中小额纠纷案件所占比重甚高。而现有的司法资源难以满足民众的司法需求,简易诉讼程序并不能满足当下普通民众多元、高效、便捷的纠纷解决需求,于是小额诉讼程序应运而生。2013年1月1日实施的《中华人民共和国民事诉讼法》简单地规定了
中国家长自古就有“望子成龙”的传统观念,十分热衷于为子女进行教育投资。近几年来,受学校教育现状、社会因素等的影响,家长们将教育投资的目标锁定在了校外培训机构。随着“校外教育投资热”的愈演愈烈,越来越多的问题暴露出来,对学生个人、家庭、学校以及社会都产生了一定的负面影响。为避免这些负面影响继续恶化,加快引导家庭科学合理地为子女进行教育投资迫在眉睫。笔者通过对黑龙江省H市三所初中的家长和学生采取调查研
近几年来,整个中国各行业对电力需求持续上升,如何节约电力建设、运行和输送过程中的成本,这是现有阶段国家各个电力部门关注的重心。因此,电网的合理建设是非常重要的问题,
物联网技术的快速发展推动了各项技术的进步。智能家居作为物联网领域中的重要应用,其技术在近几年获得了快速发展,市场规模不断扩大,智能家居整体系统的智能化提升需求越来越强烈。本文研究规则引擎技术,推进智能家居技术的实用化,解决两者融合过程中的问题,提高智能家居系统的智能化程度,提升智能家居用户的满意度。本文主要工作内容如下:首先,针对智能家居领域中设备异构化导致的不同厂商设备间交互困难问题,基于本体语
当今世界,水污染是急待解决的问题,特别是含油污水,给环境造成了不利影响。与传统油水分离方法相比,膜分离技术因其高效,节能,环保等优点,在油水分离方面具有很大的优势。众所周知,膜分离法分离油水混合物要求膜具有较高的疏水性或较高的疏油性,因此具有超疏水超亲油和超亲水水下超疏油性质的特殊浸润性材料在油水分离方面具有广阔的应用前景。本文提出了一种简单而有效的合成方法,通过一步电化学方法将石墨烯剥离并组装到
网络技术的不断进步,使云计算得到了广泛应用.云存储作为云计算的一部分,以其价格低廉、按需付费的优势能为数据用户带来了便利.数据直接以明文形式上传存储在云服务器中,必然会泄露数据的机密性,因此需要先进行加密处理.然而,加密会阻碍数据搜索.为解决密文数据的关键词搜索问题,Song提出了可搜索加密概念.由于传统的可搜索加密方案无法提供灵活的数据共享,学者们融合属性基加密的细粒度访问控制优点,设计了属性基