Spark框架结合分布式KNN分类器的网络大数据分类处理方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:tan123456654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在Map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,提出方法取得了较低的汉明损失,证明了其有效性。
其他文献
当下,高职高专物流管理专业的实训教学存在一些问题:设备有限,实训内容片面;方式单一,比重过小;重形式,轻效果。基于"工作流"的实训教学模式可有效解决上述问题,即将物流实训
本文全面分析了拆迁纠纷产生的根源和拆迁运作过程中的主要弊端 ,并以利益平衡的观点、运用博弈论的方法解决拆迁中的纠纷。在此基础上 ,对规范拆迁行为提出建设性的意见 ,以
<正>娃哈哈格瓦斯的失败绝非偶然,反映了其在产品开发推广上的战略失误。上世纪初,俄国商人伊·雅·秋林在哈尔滨建立秋林洋行,将格瓦斯正式带入中国,这款饮料很快赢得了哈尔
在竞争激烈的市场中,企业在不断寻求获得新客户、保持现有客户和争取流失客户的新途径以获得和保持竞争优势。客户关系管理正是企业实现上述目标的有效手段。如今有很多人在
虾味道鲜美,营养丰富,深受消费者喜爱,但其同时也是联合国粮农组织公布的8种常见的高过敏活性食物之一。本论文以原产于我国的中国对虾(Penaeus chinensis)为研究对象,旨在获
近几年,由于我国上市公司披露虚假信息的案件不断出现,导致上市公司及相关中介机构的信誉受到了严重的影响,并引发了多数民众对上市公司信息披露制度和监管效率的严重质疑。
光催化技术的核心是高效光催化材料的设计与合成。氮化碳(g-C3N4)材料具有类石墨相结构,由于廉价、易得、独特的能带结构和良好的热学稳定性,被广泛应用于光解水制氢、光催化
本研究将以新生代农民工使用手机电视的情况为基础,从该群体在城市生活中的媒介消费状况出发,主要考察手机电视在其实现城市融入过程中,对他们的城市体验、自我认同、休闲消
最近几十年,我国企业对外直接投资取得一定发展,成为我国改革开放组成部分之一,不仅在促进国民经济的可持续发展方面扮演重要角色,而且在推动我国同其他国家共同发展和互利共
宗教工作既是群众工作,同时也是社会工作。把宗教问题转换为社会问题,这个转换的动力与方法就是法治化。法治中国是新时期中国深入改革的主要使命之一,而宗教工作的法治化则