基于Spark与词语相关度的KNN文本分类算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:mrcena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对K-最近邻(KNN)分类算法在当前大数据背景下分类效率降低、分类效果不理想的问题,提出了一种基于Spark框架与词语相关度优化的高效KNN文本分类算法.在相似度计算过程中,采用词语相关度将文本词语间的关系考虑在内,对分类算法相似度计算进行优化,从而提高文本分类的准确度;依托Spark计算框架的内存处理机制,实现文本分类的并行化,从而提高KNN文本分类算法的处理效率,同时在并行化过程中建立类别一距离向量,以进一步加快文本分类的处理速度.实验结果表明,Spark框架下基于词语相关度的KNN文本分类算法在保
其他文献
我心中的保尔·柯察金———谷军同志●刘仲岚今年五月我的朋友中科院离休老干部谷军同志刚过了80寿辰,九月他就走了,听到这个消息我心里很久难以平静,我深深地怀念他,爱戴他,因为他
进入二十一世纪之后,我国的经济迎来了一波快速发展的阶段,这不仅得益于政府颁布的各种经济政策,更主要的是有一个经济发展所必须的稳定环境。但是最近几年,在我国经济快速发展的
本文所研究的量价关系是指收益率本身及收益率绝对值与成交量之间的线性相关关系以及成交量与股价波动率之间的关系。由于本文基于Andersen(1996)的思想,将成交量分解为预期
安徒生童话丰富的文学美感与孩子们天然的感应能力相交织,构成了动人的、极富诗意的阅读景观。孩子们安徒生童话的精神联系大致分布在如下的情感意绪上:同情意绪、欢乐意绪、
广播电视监测是我国广播电视事业重要的、不可缺少的组成部分。它对改善广播电视传输和播出质量,核查广播电视覆盖网效果,为拟定、修改覆盖网技术规划提出科学依据;对维护广播电
石油行业在中国一直被视为垄断行业,但是随着中国加入WTO之后,许多外资石化巨头涌入中国,分占中国石化市场,各大巨头使中国成品油零售市场的争夺在暗中提速,无论是网络布局还
<正>中国是一个拥有1000多所高等学校的教育大国,为适应国民经济和社会发展对人才的需要,国家自1999年起采取扩招政策。到2010年,全国各种形式的高等教育在校生总规模已达300
伴随着全球石油能源的短缺,环境污染问题日益突出,开发可再生、清洁的生物能源成为一种趋势。产油微生物具有原料利用广泛、油脂含量高、菌种资源丰富等特点,可有效发酵生产生物
当前,新型冠状病毒疫情由武汉市开始肆虐且不断持续蔓延,对人民群众的正常生活和生命安全带来了极大的伤害,对全国各条战线的生产经营带来了前所未有的冲击。为积极响应党中
当教育存在比较优势时,个人选择最大化收入的教育程度,某些人高中毕业后的工资比大学毕业后高,另一些人则相反。因此,当存在比较优势时,上大学不一定是最优选择。本文采用Roy模型