基于Active Learning的数据修复补全策略研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:windFWF1992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是信息的载体,数据的完整性决定了信息的存储和表达效果,然而数据在搜集和整理过程中经常会出现随机缺失,而且数据集在信息化时代的指数级膨胀也增加了修复补全的难度。本文在对现有的数据修复方法进行分析的基础上,针对缺失数据集属性之间关系模糊、数据规模较大等问题,提出了基于主动学习的数据后验修正的数据修复方法。主动学习是基于无标记样本或少量标记样本的学习方法,通过迭代标记有价值的知识训练得到优质的分类器或学习机。基于Active Learning的数据修复补全工作遵循“先相关-后修复”的原则,避免因盲目修复而引入脏数据或噪声数据,该方法更注重数据对于信息的表达需求,弱化了统计规律在修复中的作用。通过Rough集“相关度”和“模糊边界”理论定义属性之间的相关性,构造CutOfAttribute算法对缺失数据进行属性剪枝,去除独立属性和冗余属性,降低属性关系维度;通过迭代主动学习方法,得到精确的多元回归模型,并在此基础上对缺失属性进行代入求解,然后将验证结果作为预处理结果,生成临时完整数据集;通过支持向量机MC-Model模型构造多分类方法,对临时完整数据集进行多分类,使得数据呈现簇拥分布,解决了数据集倾斜的问题,有效减少了学习时间;在各个分类上再次使用多元回归模型拟合的方法,代入验证修复结果的有效性,并进行补全修正,最后得到“完整”的数据集。论文选取了UCI数据库中的几个经典数据集进行仿真测试,通过均方根误差等指标的对比分析验证了该方法的有效性。该方法可以广泛应用于监测、预测以及社交网络数据分析领域,具有较好的理论和实际应用价值。
其他文献
目前,P2P技术被广泛的用于网络节点之间的文件共享与搜索。采用P2P的搜索技术可以有效的跟踪数据的更新速度、提高访问的有效性以及检索的效率,同时有效地提高了共享资源的深
移动Agent是一种新型的分布式计算技术,具有良好的应用前景。作为一种能够在异构网络中自主迁移的分布式计算实体,移动Agent具有减轻网络负载、支持断连操作、动态适应网络等
下一代网络是电信网络发展的方向,业务控制方式和业务提供方式是下一代网络研究的重要内容。业务和传输的分离是下一代网络的基本特征,如何控制传输网络,支持开放业务开发,向用户
图像处理重点学科网格是中国教育科研网格上的一个典型应用,其目的是建立以资源共享和协作为核心的、服务重点学科建设的基础性支撑体系。资源包括数据资源和计算资源。在传统
针对国内半导体行业的现状,确定以半导体生产企业的扩散炉温度控制系统为研究对象。根据传统的扩散炉温度控制多采用常规温度控制仪表,存在生产工艺控制能力、自动化程度及生产
XML(eXtensible Markup Language,可扩展标记语言)凭借其结构简单、易于理解、自描述、可扩展、可跨越系统平台等特性,现在已成为Internet上数据表示和数据交换的事实上的标准
随着计算机硬件和3D扫描技术的快速发展,通过建立体数据场的连续模型的四维空间数据体的造型研究已经成为科学可视化领域中的热点研究内容,其研究成果已广泛应用于计算流体力
随着无线通信技术和互联网技术的飞速发展,移动通信业务从以前的语音业务逐渐向数据业务过渡。虽然传统互联网技术己经使人们感觉到网络所带来的便利和乐趣,但它缺乏可移动性
推荐系统通过预测用户对项目的喜好程度为用户进行信息过滤,应用知识发现技术生成个性化推荐。协同过滤已经成为个性化推荐系统的一种主要工具,但在许多推荐系统中,每个用户
最近的技术进步孕育出了一种新的无线传感器与移动对象网络(WSANs),这种网络能够监测客观世界,收集数据,根据监测到的信息做出相应的反应。这些网络可以是战场监视系统,建筑