【摘 要】
:
传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文
【机 构】
:
辽宁大学创新创业学院; 辽宁大学信息化中心;
【基金项目】
:
辽宁省教育厅科技项目(LYB201620);国家档案局科技项目(2016-X-25);辽宁省档案局科技项目(L-2016-R-6,L-2016-R-8,L-2017-X-7);2017辽宁大学“大学生创新创业训练计划”(x201710140136;x201710140333)
论文部分内容阅读
传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进行串联合并,并以合并文档取代原有独立文档进行KNN查询过程,可有效实现文本相似度指标计算量降维;其次,针对上述文本串联及KNN查询过程,构建基于Mapreduce算法的并行化KNN执行过程,实现算法计算效率的快速提升;最后,通过与同类单线程算法在文本分类精度和算法计算效率实验上对比显示,在保证足够精度前提下,所提算法分类速度可得到有效提升。
其他文献
<正>教学内容:第117-118页以及练习二十四中相应的内容。教学目标:1.使学生理解什么是小数的性质,学会运用小数的性质把一些小数化简或进行改写。2.通过观察、讨论、比较等活
北京师范大学教育系肖川先生在本刊 2 0 0 0年的六期上分别发表了 6篇文章 ,很受读者欢迎。经肖先生推荐 ,我们又邀请福建师范大学教育系余文森教授为我们撰写了阐述现代教学
新国标(GB18613)将取代GB18613—2006版,并于2012年9月1日起正式实施。详细介绍了IEC60034—30的IE2效率标准,并对GB18613—2012的3级能效与YX3系列高效率三相异步电动机效率
构建初中语文阅读有效教学的课堂,是针对新课程改革后阅读教学存在的问题,从有效进行课前教学准备开始的。为使教学准备有效,教师备课时得确定有效的学习目标,还得指导学生有
以核心素养推进教育改革与发展是当今世界教育发展的热潮。中国学生发展核心素养以培养"全面发展的人"为核心,充分反映国家经济社会发展对人才培养所需要的关键能力和必备品
本文介绍了一起500kV智能变电站为了实现大二次遥控功能,进行保护程序升级时发现保护厂家提供的新ICD文件与保护装置的CID文件的GOOSE虚端子差异较大,防止了不合格下装保护装
股权结构是公司治理的产权基础,当企业的控制权发生转移,公司治理机制将会发生变动。本文以2004年标的为上市公司股权(标的属广东省)且控制权发生转移的股权交易案为研究样本
实施生态扶贫移民搬迁工作,是加快贵州经济社会发展的重要举措。到2020年,贵州省将完成对200万贫困群众的搬迁工作,规模为全国之最。但是,生态移民搬迁不仅仅是简单的生活地