基于归一化词频贝叶斯模型的文本分类方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:wr123456789dtdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为降低海量文本分类中词频信息和文本长度对分类结果的影响,提出归一化词频的贝叶斯分类模型。基于分布式计算框架MapReduce平台,采用文本中高词频特征的对数平均计算方法进行文本长度的归一化处理,解决朴素贝叶斯模型在文本分类中参数估计的不足。实验结果表明,该方法在分类准确率上优于朴素贝叶斯方法,具有良好的扩展性和伸缩性,能够应用于大数据的文本快速分类。
其他文献
本文根据语音信息传递的特性,将情绪性语音进行归类,并根据当前归类,以及近年来的研究,对关于语音情绪识别的脑机制的研究进行归纳总结,进而根据归纳总结提出研究展望,为以后
翻译学能测试是翻译培训中不可或缺的成分,对翻译培训的质量和效果影响重大。本文对海南医学院民族预科生翻译学能测试进行实证研究,探讨了本次学能测试的成就和不足,在增强
维护经济安全是我国入世后需要长期研究的战略主题。我国石蜡蜡烛产业不断遭遇美国反倾销、反规避调查和欧盟反倾销调查的纠缠,其经济安全面临着严峻挑战。基于我国石蜡蜡烛
为进一步挖掘四川本地核桃种质资源,在对德阳本地100份优良核桃种质进行筛选的基础上,将筛选出的种质与辽核1号和香玲的开花结果情况、坚果性状与品质、抗逆性等进行了比较。
目的探讨氯胺酮(Ket)对未成年大鼠记忆维持能力及海马磷酸化环腺苷酸应答元件结合蛋白(p-CREB)、c-fos表达的影响及其相关性。方法筛选合格21日龄SD大鼠72只分为正常对照组、
<正> “本、量、利”分析又叫保本点分析,它是运用数学计算或图示方法,以变动成本法的理论为基础,以边际贡献的观念以核心,研究成本、数量、利润之间的关系,从而确定最优化目
对新疆166份海岛棉棉仁蛋白质、脂肪含量的研究表明,二者平均含量分别为33.12%、40.37%。其高低与品种类型、棉籽被绒情况、种子大小和株形等有关。趋势是:自育品种(系)、毛籽、籽指小、零式果枝
<正>笔者通过分析蒋教授以四神煎治疗膝关节肿痛的案例,阐述其治疗膝关节肿痛的临证经验,总结该方适应症特点及临床应用范围。介绍如下。1病案介绍例1.患者,女,65岁,2014年10
目的观察冠心病介入治疗患者应用替格瑞洛联合阿司匹林的临床效果。方法选取2017年1月-2018年5月在医院治疗的冠心病介入治疗患者72例,随机分为观察组与对照组各36例。对照组
母语迁移是外语学习和应用过程中的一种心理现象。母语迁移根据其影响、作用的不同,又分为母语正迁移和母语负迁移两种表现。在档案翻译教学中,如何引导学生准确利用母语正迁