基于朴素贝叶斯的文本分类研究及其在微博分类中的应用

被引量 : 0次 | 上传用户:zhouqjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在新浪微博的注册用户达到10亿以上,微博数据有着非常巨大的潜在价值,但是目前对这些大量的数据并没有进行管理分类,整体上还是比较杂乱的,很多有用信息都需要我们进行挖掘,本文通过朴素贝叶斯分类方法对微博数据进行分类,数据处理的结果应该会有很大的商业价值。本文主要做的工作从宏观上来讲就是进行文本分类,从上世纪60年代开始,人们就开始研究文本分类,初期的文本分类主要是基于知识工程(Knowledge Engineering),通过人工定义一些规则来给文本分门别类,这种方法不仅非常耗时耗力,而且要求人们必须对某一领域有足够的了解,才能够写出比较合适的规则。到上世纪90年代,网上电子文本使用的非常多,机器学习也很流行,基于机器学习的文本自动分类方法逐渐成为主流。文本分类的方法有很多种,其中朴素贝叶斯(Na?ve Bayes)分类器是当前被广泛接受的一种文本分类方法,也是本文对微博数据进行分类所用的方法。本文首先对文本分类的过程及方法进行简单的介绍,并且细化到介绍一些特征提取方法,如文档频次方法、TF-IDF方法等,同时对基于朴素贝叶斯方法的文本分类原理进行详细的研究,并运用文档频次方法、TF-IDF两种提取特征方法对朴素贝叶斯分类器进行训练,将得到的结果进行比较,最后对文本分类这项研究内容进行展望。
其他文献
在信息化技术日益发展的今天,各地公安机关紧紧围绕“金盾工程”的目标任务,投入了大量资金,建成数量庞大的信息化应用系统,积累了丰富的信息资源。如何解决各信息系统在资源
提出了一种新型非能动余热排出系统(PRHRS)设计方案,该方案以高位水箱为最终热阱,采用在蒸汽发生器二次侧建立自然循环的方式间接地带走堆芯余热。以大亚湾核电站主冷却剂系
互联网、手机等现代通信技术的出现彻底改变了信息传递的方式,在互联网经济环境下,邮政企业除居民储蓄、实物快递等服务尚具备一定的市场竞争力和客户需求外,以传统信函、邮
为整治应试教育恶习,教育行政部门积极作为、多管齐下。但是,各种教育治理手段都收效甚微,应试教育治理陷入僵局之中。作为一种社会现象,应试教育是由教育内部因素与外部因素
随着大数据时代的到来,网络媒体数据爆发式增长,影视节目不仅通过影院屏幕进入广大用户的眼球,同时也在各大网络媒体、主流微博平台以及视频网站上广泛传播,具有很强的后续影
目的:探讨马斯洛需求层次论在新药I期临床试验受试者护理中的应用效果。方法:将2011年参与I期临床试验的120例受试者作为研究对象,将马斯洛需求层次论应用于受试者护理中,以
灾难片是好莱坞类型电影之一。灾难片提供给人们的,不仅仅是一种审美满足,更主要地还揭示了一定的社会文化心理,表现了对地球上人类命运的终极关怀的哲学意义。灾难意识是人
教师职业有较强的专业性,教师要自觉地承担起学生成长的唤醒者、助推者、引领者和陪护者角色。教师评价在于评量教师工作的价值,更在于唤醒教师的专业自觉,而现行的教师评价
办公室场所是人们待的时间很长的一个地方,办公室与人关系非常紧密,办公室的形式、空间、内容,全都深刻的影响着身处其中的工作者。办公室设计往往与企业类型和企业文化相适