基于相对位置视点的数据集精简算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:teamster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机在数据采集和数据存储方面的技术迅猛发展,机器学习应用经常碰到越来越大的数据集。大部分机器学习算法的时间、空间复杂度也随着数据集的规模变得越来越高。如何避免过度的空间、时间消耗,甚至通过移除噪声数据提高数据集的泛化能力,给数据集精简的研究带来了重大挑战。论文在前人数据集精简算法相关研究的基础上,对精简算法设计的关联问题、算法分类比较等方面进行了深入研究,完成了如下的一系列工作:1.详尽地介绍了数据集精简算法设计过程中需要解决的问题和面临的选择,对实例的表现形式、精简搜索方向、相似度度量函数、投票机制、性能评价指标以及KD-Tree技术和威尔科克森检验等问题、技术进行了论述,为后续精简算法设计、讨论,提供一个比较系统的理论框架。2.主要结合了精简算法设计的原型选择和原型生成两种基本思想的不同分类,比较、分析大部分的经典精简算法并阐述各自优缺点。3.提出了一种基于相对位置视点的数据集精简算法(RePo)。从相对位置的视点入手,分析了数据点在局部区域的重要性,并由此给出了关于判断数据点是否“可替代”的理论定义。通过保留重要的边界节点、删除噪音节点以及精简内部节点,RePo算法融合原型选择和原型生成两种精简思想,最后引入噪音过滤器更加谨慎地删除噪声与部分边界节点,从而平滑化、清晰化类边界。4.在16组UCI数据集上将新提出的RePo算法与其它17种不同设计思路、不同策略的精简算法进行对比实验。论文对实验中得到的指标结果进行了分析、比较,并对算法间的差异做了威尔科克森符号秩假设检验(置信水平为0.1),实验表明:RePo算法对数据集压缩幅度较大,结合考虑压缩幅度和泛化精度的综合性能方面,其整体性能与SSMA和RMHC算法接近,但RePo算法平均泛化精度比前两种算法高出9.5%和1.3%。综上,RePo算法通过采用原型概念和剪辑式、压缩式的混合处理方式,从而结合了原型生成和原型选择的基本思想,保留重要边界点,剔除噪声数据,同时通过生成重要的数据点压缩大量内部节点。在论文实验中RePo算法保证了泛化分类水平的前提下,可对原数据集T进行比其他大部分算法更大幅度的精简。与此同时,在终止条件设计和冗余检测定义方面,RePo算法还存在改进的空间。
其他文献
随着云计算的发展,越来越多的应用以云端服务的形式开放,随之引发了Web服务数量的爆炸式增长,互联网上涌现出越来越多的功能相同但服务质量(QoS)不同的Web服务。面对如此庞大
对计算机而言,感知和识别自然界中的物体和场景,是异常困难的任务。如何准确地运用计算机语言来表达自然场景,使其不但能够区分不同的物体,还能够克服各种变换带来的问题,选
随着科技的迅速发展和计算机技术的不断进步,人们的生活越来越离不开计算机,尤其是近三十年网络的迅猛发展使得信息交流不再受距离、时间、空间所限,而在信息交流的过程中难
随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上,而通用搜索引擎的检索能力无法满足这种需求
无线传感器网络中,传感器节点由于受体积和成本的限制,通常采用能量有限的电池提供能量。但是由于整个应用网络中部署有大量的传感器节点,加上工作环境一般比较恶劣,这样使得
用户在访问Web站点的过程中,服务器会记录这些访问形成访问日志。对访问日志进行必要的处理可以获取大量的决策数据。就电子商务网站而言,处理网站访问日志有助于为网站的管理
通过动作编辑和运动重用技术为角色添加运动规律,从而形成角色动画,在CAD领域中有着广泛而重要的价值,但这一技术的实现较常应用于卡通动画角色中,缺乏对壁画中的角色动态展
随着电子元器件的普及与发展,无线传感器网络中的目标追踪技术具有广泛的应用价值和实际意义。然而,现有的无线传感器网络目标追踪技术在追踪方式和数据的存储查询管理上没有充
物流行业进入信息化时代后也需要信息化管理,通过建立高效畅通的物流信息系统,对物流进行科学管理,完成物流决策、业务流程、客户服务的全程信息化,这就是物流管理信息化。物流管
软件系统的开发是一个包含可行性分析、需求分析、编码、执行、测试、运行维护等多个阶段的复杂过程。特别是开发分布式的、具有并行性、时间性、不确定性等特点的系统更具有