参考点k近邻分类算法的改进及其MPI并行化

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:guojinhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k近邻算法(k-Nearest Neighbors,kNN)是一种基于统计的经典分类方法,具有算法简洁、分类准确性较高和无需先验统计知识等特点,目前已成为数据挖掘领域中广泛研究与应用的算法之一。本文在分析现有k近邻算法的基础上,主要开展对k近邻算法的改进与并行化研究。传统k近邻分类算法具有二次方时间复杂度,为了提高分类速度,一类方法通过构造树型索引结构以加快k近邻查找,但是基于树型k近邻算法随着数据集维度增加其分类性能会变差;另一类方法则通过查找近似近邻而避免精确近邻的大量计算,其中基于参考点k近邻算法对各类数据集均具有较高的分类效率,但分类精度相对于传统k近邻算法仍有较大损失,针对该问题,本文提出一种改进的参考点k近邻分类算法,其时间复杂度为O(nlogn)。本文考虑到训练样本的空间分布特征,根据到样本距离的方差改善参考点的选取,并在查找近邻样本时依据参考点所起不同作用而赋予参考点自适应权重。通过在公开与人工数据集上实验,验证了本文算法具有较高的分类效率,相比于现有参考点k近邻算法获得了更好的分类精度。为了解决单机环境下大规模数据分类存在计算性能弱、内存消耗高与扩展性差等问题,提出了基于MPI(Message Passing Interface,消息传递接口)并行编程模型的DPkNN与PkNN两种算法。前者基于数据并行的思想,将待分类数据集均衡分配给各进程来并行处理,后者把所有进程构造为流水线模型,各进程并行完成分类任务中的一部分。针对本文提出的参考点k近邻算法,还设计了通过划分训练集来并行求取参考点的方法。将这两种并行算法应用于本文参考点k近邻算法与传统kNN算法,并在超算平台上使用至多48个核心资源进行实验,和现有并行方法作对比,验证了这两种并行算法均能显著地提高分类效率,其中PkNN算法具有更好的加速比和可扩展性。最后,将k近邻算法应用于手写识别中,实现了一个集成多种算法的手写识别系统,它具有友好的交互界面,能对手写输入的数字进行有效识别。同时利用手写数据集进一步验证了本文第三章提出算法的有效性。
其他文献
随着现代工业的发展,重金属污染日趋严重。重金属污染引发的环境和健康问题在许多国家都有报道,我国的重金属污染状况也不容乐观。土壤和水体中的重金属污染可以通过食物链进入
小麦条锈病是一种气传性的低温真菌病害,严重威胁小麦的生长。小麦条锈病有寄生严格、变异性高、流行广布、气流传播和孢子繁殖速度快等特点,所以条锈病极易流行爆发,使小麦
道路千万条,安全第一条。道路交通安全事关人民群众生命财产安全,社会广泛关注。今年全国人代会上代表们提出的有关修改道路交通安全法的议案包括哪些内容,审议情况如何?记者
苏绣为四大名绣之一,以其精细雅洁的风格自古以来广受好评,表现力丰富“无不入画”。作为艺术的一种表达形式,选择适宜的材料与表现技法以及展示方式可更好地表达作品内涵,是
<正>冬春季节到了,各养殖分公司技术员反映最多、最头疼的问题就是鸡慢性呼吸道疾病及大肠杆菌病,它成为影响冬春季节肉鸡、种鸡生产成绩的最重要因素。鸡慢性呼吸道病是由鸡
将绳驱动与并联机构技术应用于拟人臂机器人上,设计一种绳驱动的串并混联拟人臂机器人。其特点之一是在拟人臂的各个旋转关节安装有旋转编码器,采用关节角反馈的控制方法,提
西北回民起义结束后,作为镇压回民起义主力的湘军及地方军事力量逐渐暴露其弱点。加之战后甘肃经济极为困难,财政支绌已给地方政府造成了巨大的压力。为此,以左宗棠为首的湘
信息时代的成人教育价值重廓,既要依据信息时代的蕴涵去反映成人教育价值的变迁。又要从信息时代存在的问题去揭示影响成人教育价值彰显的障碍,还要就信息时代发展的走势,去合理
本文基于消费约束的效用函数构建"人口数量-货币政策-房地产价格"理论模型,从供求关系解读城市人口、货币政策影响房地产价格的内在机理,运用2010年第二季度至2018年第四季度
<正>财报显示,越秀地产2016年营业收入约为人民币208.7亿元。权益持有人应占盈利约为人民币15.4亿元,同比上升52.1%;核心净利润(不计投资物业评估净跌/升值和净汇兑损益)约为