【摘 要】
:
针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming
【机 构】
:
河北大学河北省机器学习与计算智能重点实验室; 河北大学数学与信息科学学院;
【基金项目】
:
河北省自然科学基金资助项目(F2017201026);河北大学自然科学研究计划资助项目(799207217071);河北大学研究生创新资助项目(X2016059)资助
论文部分内容阅读
针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。
其他文献
翻译活动是受意识形态及赞助人等权力操控下的一种社会活动。借助于福柯的权力话语理论及勒弗菲尔的改写理论从历史实证角度探讨建国初期十七年新中国翻译活动的过程及其制约
<正> 从1970年11月开始发掘至1976年11月结束的杨家湾两座汉墓,距咸阳市东北22公里,位于高祖刘邦的长陵和景帝刘启的阳陵之间,因靠长陵较近,可能是长陵的陪葬墓。这个陪葬墓
社会法治国是法治国原则和社会国原则相互作用的产物,其主要强调国家对人民的积极给付义务。通过梳理社会法治国的发展历程,回顾国家在各个历史发展时期的不同形象、任务及其
<正> 宋代瓷枕,包括传世和近年出土的,为数并不算少,但影青瓷枕则比较少见。镇江市博物馆藏有宋代影青瓷枕四件,胎质、釉色、制作都很精美,试作介绍于后。一、影青雕塑卧女瓷
<正> 我国劳动人民对世界文明史作出过许多重要的贡献,饲养家蚕和利用蚕丝织帛是我国最早的发明之一。我国丝织的历史,可以从新石器时代说起。到商代,蚕桑丝织技术已经相当发
从系统优化、先进技术应用、常规综合防灭火措施等三个方面,系统地总结了寸草塔煤矿在防灭火方面采取的13项主要措施,分析了寸草塔煤矿在防灭火方面取得的效果,得出了通风系
本文采用点滴法分别测定了辛硫磷和毒死蜱对中华稻蝗5龄若虫的毒力,做出了毒力回归曲线并得到毒力回归方程及LD50值。辛硫磷的毒力回归方程为Y=2.79X-6.07,LD50=1.96μg/g虫
企业内部控制作为企业日常管理工作中的一个重要内容,是企业具体针对自身内部管理而采取展开的一项管理工作,贯穿于企业日常管理的各个方面。但是因受到管理者、管理制度等方
2009年10月1日,第三次修订的《专利法》正式实施。修订后的《专利法》明确将现有技术写入法条,第22条第二、三款中引用了现有技术的术语并增加了现有技术的明确定义作为第四
吡啶并吖啶(Pyridoacridine)生物碱以很强的细胞毒性著称,它们广泛分布在海绵、海鞘、珊瑚等无脊椎海洋生物中。现代生物学评价发现它们还具良好的抗真菌、抗细菌的生理活性,