基于Spark的证据邻域粗糙并行分类高效算法

来源 :南京理工大学学报 | 被引量 : 0次 | 上传用户:dousansan33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统邻域分类器因良好的分类性能在分类问题中得到广泛应用。但数据规模和维度的不断增加,提高了邻域分类器的处理难度。为解决这一问题,该文基于Spark实现邻域决策错误率并行属性约简算法,删除数据中的冗余属性,减少数据间的不确定性。该算法能减少分类过程中数据计算时间,提高分类计算效率。邻域分类器在分类决策过程中采用的多数投票机制没有考虑到邻域样本的空间差异性与标签不确定性,易导致错误分类。该文在Spark框架下将D-S证据理论引入邻域分类器,并行融合整个邻域空间的证据支持信息,提出基于Spark的邻域证据并行分
其他文献
继电保护对于电力设备维护及其正常运转具有非常重要的作用.例如大面积停电或者是确保电力设备的安全运转,继电保护都是具有非常有效的防范作用的.本文着重描述继电保护类型,
创新已成为民族进步、国家兴旺的动力源.李克强总理提出“大众创业,万众创新”极大地激发了民族创业精神和创新基因,这也正是建设中国特色社会主义事业进程中全面创新发展的
期刊
1 引言rn随着现代电气设备的更新换代,功率半导体工业得到了快速的发展.在传统的功率晶闸管器件和MOS器件IGBT之后,工程师们又开发出了一种介于两者之间的IGCT器件,其既具有I
期刊
行动导向教学是以任务或者角色的方式来进行教学,这种教学方式提高了学生学习的积极性,然而传统的职业学校的电工电子教学已经不能满足当代职业学校学生的需求.因此,教师将行
期刊
超静定梁的求解相对复杂,含有轴向载荷的超静定梁问题则更难求解.为解决含有轴向载荷的超静定梁问题,本文建立了含有轴向载荷的梁弯曲变形的力学模型,运用微元法建立了弯曲拓
期刊
《电机学》课程实施方案紧紧围绕以学生为主体的方针制定,将过程考核贯穿整个授课过程.在教学中,针对不同知识点,采用多种教学模式,研讨和课堂参与大比例考核,提升学生学习兴
期刊
药品生产质量管理规范(GOOD MANUFACTURING PRACTICES,简称GMP)要求制药、食品等企业要有先进生产设备、科学生产过程和严格的检测系统以及完善的质量管理体系,以确保最终的
期刊
密度峰值聚类算法(Density peaks clustering,DPC)是一种基于密度的新型聚类算法。该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类。该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳。针对这些不足,该文提出一种基于电子分层模型和凝聚策略的密度峰值聚类算法(Density peaks clustering based on electronic shells model an
前向贪心搜索策略在约简求解的过程中,需要遍历所有的候选属性,从而确保在每轮迭代时能够选择出最优的属性。在属性数量急剧增加时,利用前向贪心搜索进行约简求解会显式地带来较大的时间消耗。鉴于此,在前向贪心搜索的基础上,依据属性约简过程和粒度的变化关系,提出了基于粒度的加速求解约简策略。该策略的核心思想是以粒度大小为标准,剔除对应着较粗粒化结果的属性,从而压缩候选属性的搜索空间,达到提升约简求解效率的目的。在12组UCI数据集上,采用3种不确定性度量,实验结果表明,相较于前向贪心搜索,基于粒度的加速求解约简策略不
传统邻域粗糙集需指定半径或通过搜索方式找出适用于问题求解的半径,这在数据预处理过程中会带来极大的时间消耗。而粒球粗糙集方法则能够依据数据分布,自适应地生成合适的粒结构。以粒球的纯度为度量准则,粒球粗糙集方法亦为属性约简问题的研究引入新的思路。利用前向贪心搜索求解约简时,需尝试计算每一个候选属性被加入约简池后所引起的粒球纯度的变化,这为算法的执行效率带来了严峻挑战。为解决这一问题,在前向贪心搜索进程中提出了属性划分策略,其本质是将所有属性划分成不同的组,从而能够压缩候选属性的搜索空间,以达到快速求解约简的目