【摘 要】
:
针对维吾尔文组词算法在文本分类中的分类性能不高,以及处理海量数据困难等问题,提出一种改进维吾尔文组词算法(DM),并设计一种基于Hadoop和改进维吾尔文组词算法的文本分类
【基金项目】
:
新疆维吾尔自治区自然科学基金项目(2016D01C048)
论文部分内容阅读
针对维吾尔文组词算法在文本分类中的分类性能不高,以及处理海量数据困难等问题,提出一种改进维吾尔文组词算法(DM),并设计一种基于Hadoop和改进维吾尔文组词算法的文本分类模型。对文本进行分段式处理,对每段分别采用DM组词算法,利用MapReduce编程模型实现该算法的并行化设计,结合Mahout贝叶斯分类算法进行文本分类,实验结果表明,该模型具有较好的分类结果。
其他文献
新西兰是我国乳业进口的第一大来源地。2008年中新自由贸易协定签署后中新乳制品贸易更是取得较快增长。然而,在激增的贸易数字的背后存在着我国对外贸易依存度过高,国内乳业
改革开放以来,中国发电行业的迅速发展与政府规制改革政策密不可分。随着人们对自然垄断含义认识的变化、电力技术的发展、电力需求的变化以及电力行业体制改革的进行,发电行
物质过程是“做事”和“发生”的过程,其实现与动词的使用密不可分。但并不是所有的动词都可用于物质过程。传统的英语词典和语法著作出于句法分析的需要,根据英语动词的功能和
高速切削加工是切削加工发展的一个重要方向,本文详介绍高速切削加工机理、特点、在国内外的发展和应用领域以及其发展趋势等。
移动互联网是近几年的新兴业务,随着国内互联网爆炸式增长,行业发展越来越快速,行业内的竞争也日趋激烈。移动通信运营商对客户所提供的服务,已更多向移动互联网应用转变。本
本工作分析了研制核场测温用热电偶的紧迫性,介绍了一种核场测温用高精度K型热电偶合金材料。分析了热电偶材料中合金元素的作用,并进行了核场测温材料的抗辐照成分设计;通过
半导体光催化技术具有处理效率高,不存在二次污染等特点,对难降解有机污染物具有明显的优势,被认为是一种极具前途的环境污染深度净化技术。纳米氧化锌(纳米ZnO)作为一种重要
<正> 藏戏是在藏族民间舞蹈、民歌、说唱艺术的基础上,吸收一些酬神醮鬼的宗教仪式而形成的。它最初是以藏族民间舞蹈和宗教仪式相结合而成的哑剧性的跳神舞,以后经过表演加
喜剧动画作为目前世界上较为流行的一种表现形式,对于动画制作者来说有必要进行研究和整理,因为通过整理和搜集我们可以从中找到制作喜剧动画的规律,尤其是在动作的运动上,表
目的探究去乙酰化酶(SIRT2)沉默对胃癌细胞SGC-7901增殖和迁移及p53和谷氨酰胺酶(GLS)表达的影响。方法用SIRT2-shRNA和shRNA转染胃癌细胞SGC-7901,命名为SIRT2-shRNA组和shR