【摘 要】
:
根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式
【机 构】
:
西藏自治区科技信息研究所,成都理工大学
论文部分内容阅读
根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。
其他文献
本文对克理斯藤森创立的破坏性创新理论进行了梳理,给出了破坏性创新的三组衡量标准,对阻碍企业破坏性创新的六个因素进行了分析,最后对破坏性创新理论带给我国企业的启示提
通过阐述中山市数字城市线划图空间数据库的建设过程以及建库工作中的问题与解决方法,提出了一种实用的数字城市线划图空间数据库的建设方法,建立了一套独特高效的数据库建设
OY—TES-1属于癌一睾丸抗原(cancer testis antigen,CTA),是一种在多种肿瘤组织中表达,在睾丸以外的正常组织几乎不表达的抗原。CTA既可引起体内免疫反应,亦可引起细胞免疫反应,已有
玉洁新DP300—高效、广谱消毒剂汽巴精化(中国)有限公司周泾步平张贵民0引言自然界中广泛存在着各种微生物,诸如人们的皮肤、粘膜、口腔、肠道等都存在着微生物,但绝大多数微生物都是非
多年来 ,大量的流行病学调查研究显示 ,绝经妇女的雌激素替代治疗或是雌孕激素替代治疗 (hormonereplacementtherapy,HRT)可以降低绝经期女性发生冠心病 (coronaryheartdisea
本文在对我国电子政务信息安全立法现状进行梳理的基础上,针对其存在的问题,提出确立立法原则、建立健全立法体系、完善立法监督机制等对策.
挤压膨化技术以其连续性、高效性以及产品形态多样性而广泛应用于休闲、婴幼儿、速溶茶、面类、谷物等食品领域,文章主要介绍了挤压技术在我国谷物加工中的应用概况、工作原
截至2012年12月27日,中国石油天然股份有限公司重大工业应用试验项目——气相聚乙烯(PE)干粉催化剂PGE-201,在大庆石化公司塑料厂8万吨/年LLDPE装置已持续进行60天。这标志着中国
随着对大数据和云计算的利用,我国金融、军事、信息安全等诸多领域都实现了发展,极大的提升了工作效率。依托计算机信息处理技术,可以对海量数据进行搜集与分析,进而为企业发
当民族小吃以某种形式载入记录时,它的发展则更引起人们的关注,这不仅需要勇气,还需要运筹帷幄的智慧。