高效k近邻算法及其MPI并行化的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liyqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基本k近邻算法通过搜索数据集中相似度最高的k个样本来实现分类或者回归,其没有显式的学习过程,天然的具有简单、离线学习、适用于多分类等优点。由于该算法需要计算每个结点到其他所有结点的距离,所以也被称为全搜索算法(FSA,full search algorithm),因其获得最优k值需要O(N~2)的时间复杂度,所以计算代价比较高。目前主要有两种加速的算法,一种是结合树索引的精确近邻查找算法,这种算法虽然可以通过树索引结构减少距离的计算,但在高维数据中,其时间复杂度依然接近于FSA。另一种是近似近邻查找算法,它相较于精确近邻查找算法而言,虽然在查找近邻时略有偏差,但却在时间复杂度上有明显的优势,故而被广泛研究。在近似k近邻算法中,优先搜索k-means树算法是针对高维数据搜索查找的一种高效的近似近邻查找算法,其使用k-means聚类来构建树模型。由于k-means聚类本身的时间复杂度较低,且算法采用特定策略来对树进行近邻搜索,故而算法的效率很高。然而,高维数据中可能存在的属性噪声会直接影响该算法中k-means树的构建。针对这一问题,本文在基于优先搜索k-means树的基础上,通过Bagging(bootstrap aggregating)方法引入k-means森林,提出了优先搜索k-means森林算法。相较于原算法,该算法不仅时间开销更小,而且对于高维数据中的属性噪声也有一定的鲁棒性。同时,本文还在MPI的基础上,通过对该算法的并行化设计,使得其处理数据的效率得到进一步的提升。另外,为了尝试解决精确近邻算法依赖于树结构的问题,本文提出了一种球模型的近邻查找分类算法。该算法用k-means聚类产生的球来替代原本的数据集,而不再依赖于树结构,在提高分类效率的同时还降低了标签噪声对分类结果的干扰,从而能够在部分数据集上获得更好的效果。
其他文献
大江健三郎不仅是日本著名的作家,更是诺贝尔文学奖的获得者。1957年大江以短篇小说《奇妙的工作》初登文坛引起极大关注,2013年推出长篇小说《晚年样式集》,如今83岁高龄的
一百六十年前,公元1799年的6月6日,伟大的俄罗斯詩人普希金誕生在莫斯科。他的家庭是貴族家庭。父亲謝尔盖·李伏維奇·普希金是退职少校,母亲納杰日达·奥西波芙娜是一个俄
老挝与中国两个国家的关系历史悠久,老挝有史以来都是中国的友好邻国。两国的社会制度相同都是社会主义国家,拥有着共同的理想和追求,都坚定地走社会主义道路。两国之间进行的合作也历史悠久,并且合作双方都获得一定利益,特别是在经济方面,具有鲜明的互补性,合作前景一片光明。实行改革开放以来,中国在社会主义建设方面的成就和经验在很多方面对老挝都产生了深远的影响,两国之间的合作不断加深,体现在政治、军事、经济、文
当前,规模化逐渐成为我国畜禽养殖业发展的主要思路,而现实中大规模养殖在带来经济效益的同时也带来了严重的环境污染。从污染控制的角度看是否存在最优养殖规模成为一个需要
以黄土丘陵沟壑区陕西省米脂县为研究区,综合考虑区域农耕生态背景与社会经济发展状况,建立了以农耕生态风险概率与自然-社会复合系统损失度耦合的综合生态风险评价体系,分析
近来,苹果手机推出“Face ID”人脸识别功能,蚂蚁金服、京东、苏宁等互联网企业推出刷脸支付功能,中国农业银行启用刷脸取款机,人脸识别掀起新一轮热潮。伴随着人工智能时代的到来,人脸识别技术在深度学习和大数据驱动下,展现巨大的发展潜力,其应用场景不断拓展,由安防等公共领域向支付及验证的商业领域逐步落地。然而,人脸识别是一把双刃剑,在技术持续演进、应用不断推广的同时,也带来了数据泄露、个人隐私遭受侵
会议
当今图书馆正处于服务形式的转型期,传统的借阅服务越来越趋向于数字化信息服务。电子阅览现已成为一项不可或缺的服务内容。目前图书馆开展电子阅览服务的主要场所是电子阅
目的为塑造自然、匀称而具美感的乳房提供参考和依据。方法对45名年龄22-45岁且对自己乳房满意的女性志愿者分别测量体重、身高、乳头直径、乳晕直径、胸乳线(乳头至胸骨切迹
目的:通过收集糖尿病合并冠心病患者临床病例信息资料,运用中医智能(辅助)诊疗软件和数据挖掘分析技术,探讨以“证候-证素-中药”为一体的糖尿病合并冠心病中医辨证用药规律,为临床辨证论治提供参考。方法:将收集到的500例糖尿病合并冠心病患者的临床病例进行整理,建立“糖尿病合并冠心病临床病例信息数据库”,运用Microsoft office Excel 2016、SPSS 21.0、SQL Server
在解决高度非线性和严重不确定系统的控制问题方面,模糊逻辑系统和神经网络有强大的逼近能力。自适应模糊/神经网络控制是基于自适应方法的基本原理,利用模糊逻辑系统/神经网络的特点和理论设计而成的,这为非线性控制的研究提供了一种新方法。另一方面,非线性系统的自适应控制可大致分为状态反馈控制和输出反馈控制。状态反馈控制适用于所有系统状态已知或可测量的情况。考虑到大多数状态信息在实际应用中很难获得,因此使用观