基于相对位置视点的数据集精简算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：teamster

【摘要】

：

随着计算机在数据采集和数据存储方面的技术迅猛发展,机器学习应用经常碰到越来越大的数据集。大部分机器学习算法的时间、空间复杂度也随着数据集的规模变得越来越高。如何

【作者】

：

余岳林

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2013年期

【关键词】

：

近邻规则数据集精简算法原型选择原型生成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机在数据采集和数据存储方面的技术迅猛发展,机器学习应用经常碰到越来越大的数据集。大部分机器学习算法的时间、空间复杂度也随着数据集的规模变得越来越高。如何避免过度的空间、时间消耗,甚至通过移除噪声数据提高数据集的泛化能力,给数据集精简的研究带来了重大挑战。论文在前人数据集精简算法相关研究的基础上,对精简算法设计的关联问题、算法分类比较等方面进行了深入研究,完成了如下的一系列工作：1.详尽地介绍了数据集精简算法设计过程中需要解决的问题和面临的选择,对实例的表现形式、精简搜索方向、相似度度量函数、投票机制、性能评价指标以及KD-Tree技术和威尔科克森检验等问题、技术进行了论述,为后续精简算法设计、讨论,提供一个比较系统的理论框架。2.主要结合了精简算法设计的原型选择和原型生成两种基本思想的不同分类,比较、分析大部分的经典精简算法并阐述各自优缺点。3.提出了一种基于相对位置视点的数据集精简算法(RePo)。从相对位置的视点入手,分析了数据点在局部区域的重要性,并由此给出了关于判断数据点是否“可替代”的理论定义。通过保留重要的边界节点、删除噪音节点以及精简内部节点,RePo算法融合原型选择和原型生成两种精简思想,最后引入噪音过滤器更加谨慎地删除噪声与部分边界节点,从而平滑化、清晰化类边界。4.在16组UCI数据集上将新提出的RePo算法与其它17种不同设计思路、不同策略的精简算法进行对比实验。论文对实验中得到的指标结果进行了分析、比较,并对算法间的差异做了威尔科克森符号秩假设检验(置信水平为0.1),实验表明：RePo算法对数据集压缩幅度较大,结合考虑压缩幅度和泛化精度的综合性能方面,其整体性能与SSMA和RMHC算法接近,但RePo算法平均泛化精度比前两种算法高出9.5%和1.3%。综上,RePo算法通过采用原型概念和剪辑式、压缩式的混合处理方式,从而结合了原型生成和原型选择的基本思想,保留重要边界点,剔除噪声数据,同时通过生成重要的数据点压缩大量内部节点。在论文实验中RePo算法保证了泛化分类水平的前提下,可对原数据集T进行比其他大部分算法更大幅度的精简。与此同时,在终止条件设计和冗余检测定义方面,RePo算法还存在改进的空间。

其他文献

基于QoS反向交叉预测的Web服务推荐系统研究

随着云计算的发展,越来越多的应用以云端服务的形式开放,随之引发了Web服务数量的爆炸式增长,互联网上涌现出越来越多的功能相同但服务质量(QoS)不同的Web服务。面对如此庞大

学位

协同过滤数据平滑机制反向交叉预测用户反馈

图像局部不变性特征研究

对计算机而言,感知和识别自然界中的物体和场景,是异常困难的任务。如何准确地运用计算机语言来表达自然场景,使其不但能够区分不同的物体,还能够克服各种变换带来的问题,选

学位

局部特征提取不变性评估物体识别

匿名化隐私保护技术在易货系统中的研究与应用

随着科技的迅速发展和计算机技术的不断进步,人们的生活越来越离不开计算机,尤其是近三十年网络的迅猛发展使得信息交流不再受距离、时间、空间所限,而在信息交流的过程中难

学位

匿名化M-invarianceNC m-invariance数据发布子系统

垂直搜索引擎中聚焦爬虫技术的研究

随着互联网的高速发展，多元化信息呈几何级数增长，用户对于信息检索服务也提出了越来越高的要求，尤其是在检索结果的专业性和准确性上，而通用搜索引擎的检索能力无法满足这种需求

学位

垂直搜索引擎聚焦爬虫相关度计算启发式搜索量子进化算法

无线传感器网络基于可靠性的最大化网络寿命的节点部署研究

无线传感器网络中,传感器节点由于受体积和成本的限制,通常采用能量有限的电池提供能量。但是由于整个应用网络中部署有大量的传感器节点,加上工作环境一般比较恶劣,这样使得

学位

无线传感器网络统计可靠性网络寿命节点部署

基于Hadoop的电子商务网站访问日志处理与分析

用户在访问Web站点的过程中，服务器会记录这些访问形成访问日志。对访问日志进行必要的处理可以获取大量的决策数据。就电子商务网站而言，处理网站访问日志有助于为网站的管理

学位

电子商务访问日志处理集群协作模型数据处理

面向壁画表现的角色动画生成技术与系统

通过动作编辑和运动重用技术为角色添加运动规律,从而形成角色动画,在CAD领域中有着广泛而重要的价值,但这一技术的实现较常应用于卡通动画角色中,缺乏对壁画中的角色动态展

学位

壁画表现角色动画动作编辑蒙皮

满足服务质量的传感器网络目标追踪研究

随着电子元器件的普及与发展，无线传感器网络中的目标追踪技术具有广泛的应用价值和实际意义。然而，现有的无线传感器网络目标追踪技术在追踪方式和数据的存储查询管理上没有充

学位

目标追踪无线传感器网络元胞自动机数据管理故障检测服务质量分布式特性

基于J2EE的物流信息管理子系统的研究与实现

物流行业进入信息化时代后也需要信息化管理，通过建立高效畅通的物流信息系统，对物流进行科学管理，完成物流决策、业务流程、客户服务的全程信息化，这就是物流管理信息化。物流管

学位

物流管理分布式计算平台二次开发可扩展性可移植性灵活性

基于着色Petri网的建模和模型性质分析验证的研究

软件系统的开发是一个包含可行性分析、需求分析、编码、执行、测试、运行维护等多个阶段的复杂过程。特别是开发分布式的、具有并行性、时间性、不确定性等特点的系统更具有

学位

着色Petri网建模并行调度性质分析验证

基于相对位置视点的数据集精简算法研究

与本文相关的学术论文