基于朴素贝叶斯方法的文本分类算法研究

来源 :湘潭大学 | 被引量 : 3次 | 上传用户:sss03157017633
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,信息技术发展迅猛,互联网用户步入了一个崭新的时代,海量数据也为用户带来了前所未有的体验。虽然用户可以检索更多的信息,满足更广泛的需求,但科技的进步往往伴随着一些新问题的衍生,大量的原始数据是杂乱无章的,这为用户带来了很大的不便,所以文本分类技术应运而生。通过文本分类技术可以根据文本中包含的特征词将文本自动分类,在信息检索、自然语言处理等领域得到了广泛的应用。目前,已经有很多方法应用于文本分类,比如朴素贝叶斯、KNN、决策树、SVM等等,但如何选择高效精准的方法使得文本分类达到更好的效果是当下亟待解决的问题。本文主要围绕朴素贝叶斯算法进行研究,并提出了两种改进朴素贝叶斯算法:一种是基于泊松分布的加权朴素贝叶斯文本分类算法,另一种是基于特征深度加权的朴素贝叶斯树文本分类算法。本文进行的主要工作如下:(1)介绍了文本分类的研究背景和发展现状,阐述了文本分类的定义,详细介绍了文本分类的具体流程以及几种经典分类器的算法原理和优缺点。(2)提出了一种基于泊松分布的加权朴素贝叶斯文本分类算法,改进朴素贝叶斯算法在文本分类中精度不足的问题。首先将泊松随机变量引入朴素贝叶斯的推导过程,然后通过信息增益率对文本特征词进行加权处理,削弱了属性独立性假设对分类准确率的影响。最后在两组经典数据集20-newsgroups和搜狗新闻数据集的实验表明,该方法与KNN、SVM等其它几种算法相比在准确率、召回率、F1值上得到了很大的改善,在保证执行效率的同时提升了分类精度。(3)提出了一种基于特征深度加权的朴素贝叶斯文本分类算法,进一步改进朴素贝叶斯算法的文本分类准确率。通过将决策树算法和朴素贝叶斯算法结合的混合模型,充分利用了朴素贝叶斯在小数据集上分类表现更好的特点,首先构建决策树对大数据集进行逐层筛选,然后在决策树的叶子节点上针对少量数据构建朴素贝叶斯模型,并对朴素贝叶斯算法进行基于特征出现在决策树中深度的加权处理,既保证了数据的完整性,同时削弱了属性独立性假设的影响。最后在20-newsgroups和搜狗新闻数据集上的实验结果表明,该方法相比朴素贝叶斯、决策树、SVM等几种其它算法大大提升了文本分类准确率,且执行时间和朴素贝叶斯、决策树相关算法保持同等水平,验证了该方法的有效性。
其他文献
1994年我省粮食生产在过去5年连续丰收的基础上,又夺得好的收成。广大农民丰收不忘国家,积极向国家交售粮食。全省各地涌现出一批种粮售粮大户,为完成国家粮食收购计划作出了
区域产业与高职教育互动的平台是专家工作室。通过两个利用、两个建设、三个成立、几个比赛等措施建设唐峥专家工作室,促进了它快速发展,使其与高职教育互动,在服务区域产业中实
1997年刑诉法颁布后,为进一步明确检察机关与公安机关关于刑事案件的管辖权,国家六部委的联合做出了规定,检察机关管辖的案件主要为刑法第八章规定的贪污贿赂案件和第九章的渎职
[基本案情]某年某月某日21时许,被告人柯某某分别在番禺区某镇吉祥道洛溪新城联想电脑专卖店、某街桥东路40号六福珠宝金行及市桥街东涌路130号泰兴隆珠宝行,通过冒用被害人
一、基本案情何某系某市规划局用地处处长,在其任职期间,多次利用职务便利谋取个人私利,检察机关对何某立案侦查后,在办案过程中发现,何某在经手某地产公司开发一地产项目在
灵芝是我国传统名贵中药,灵芝中含有多种有效成分,其中对于灵芝多糖和灵芝三萜的药理研究最广。灵芝多糖具有抗癌、降血糖、调节肠功能、治疗动脉粥样硬化等药用价值;灵芝三
关键词:褥疮;预防;治疗;护理  中图分类号:R268  文献标识码:B  文章编号:1007—2349(2009)07—0073—01