基于贝叶斯理论的网络舆情主题分类模型研究

被引量 : 9次 | 上传用户:johnathan126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网民的数量越来越多,很多人通过互联网来关注舆情,人们在网络上浏览自己感兴趣的舆情,并且发表评论、宣泄情感。然而网络舆情信息繁杂,网民进行浏览时具有一定的盲目性,目前各大门户网站、论坛等对网络舆情主题进行了规划,但在一定程度具有抽象性。因此,对网络舆情主题进行分类,不仅方便用户浏览舆情新闻,同时是对网络舆情进行有效预警,能够使相关部门正确引导网络舆情。关于中文文本分类的方法已有多种,其中常见的分类方法有朴素贝叶斯、K-近邻和支持向量机三种。本文在利用结构简单、分类高效的朴素贝叶斯对网络舆情主题分类进行研究时发现,朴素贝叶斯的条件独立性假设限制了其应用范围,降低了分类精度,并且该方法在面对增量的网络舆情信息时,需要通过学习来修正先验信息,而每一次学习所有文本都需要参与,缺乏灵活性。针对上述问题,本文运用增量学习机制和动态约简对朴素贝叶斯分类方法进行优化,结合文本挖掘技术,提出了一种优化的网络舆情主题分类模型。本文的研究重点主要有以下几个方面:1.网络舆情文本信息的收集,通过利用网络爬虫技术收集信息,并且结合HTML解释器和网页净化技术对舆情信息进行解析和提取,利用优化的特征加权方法表示网络舆情文本,提高网络舆情文本表示的准确性。2.利用增量学习机制和(F-λ)广义动态约简对朴素贝叶斯分类方法进行优化,提高其分类精度。(F-λ)广义动态约简通过引入动态约简精度系数λ,减少参与属性约简的文本数,释放了条件独立性假设,降低计算复杂度,提高其分类精度;朴素贝叶斯利用增量学习,解决了对增量网络舆情进行主题分类时需要学习所有文本来修正先验信息的问题,在增量学习过程中,通过引入类置信度,避免了噪音分类加入原始训练集而降低分类器的分类精度。3.通过数据实验分析对比文中所提到的非增量非动态约简分类算法、增量分类算法、动态约简分类算法以及既增量又动态约简分类算法,以检验本文所提出的优化的网络舆情主题分类算法的有效性,并且通过仿真实验研究了网络舆情主题分类算法的可行性。
其他文献
中西方在道德建设过程中,重视将民族精神与时代风尚相融合,创造了各具特色的伦理文化,形成了具有鲜明民族特色和地域特征的伦理精神。中西方伦理精神体现了中西方各自的道德
孙中山是近代著名的革命家、政治家,他领导国民革命四十余年,一生致力于实现中国的自由与平等。两次护法运动期间,国内外政治局势趋于紧张,内有军阀排挤,外无国际援助,晚年孙
随着经济快速发展,科技的进步,人们淡化了书写意识,汉字书写水平能力整体下滑,小学生也是其中之一。本文就低年级小学生写字现状、形成原因加以分析,依据《语文课程标准》,结
丧葬仪式音乐研究现状不容乐观。学术成果的数量虽然最近几年大体呈递增趋势,但是,研究地域主要集中于我国南部省份,较少关注北方地区。而研究者学术背景虽然多样化,却显现出
从唐初降至近代,约有300多种文献典籍从不同角度记载了伊斯兰教在中国的产生、发展、变化情况。其中最早记录伊斯兰教及其有关国家社会历史情况的中文典籍,当首推出现在唐中
甘草(Glycyrrhiza uralensis Fisch.)多年生草本植物,又名甜草根、红甘草、粉甘草、粉草.喜生于沙滩、草原,主产于新疆、内蒙、山西、甘肃等地,是传统常用中草药之一.药用根,
中国和泰国人民来往的历史久远、关系密切,春节文化在两国本土文化中占有重要的地位,产生了深远的影响。然而,随着时代的进步,两国春节文化形成了各自的流程、作用、内涵等,所引起
成年哺乳动物的神经发生现象被大量研究证实,影响和调节神经发生的因素也逐渐被揭示。小胶质细胞是中枢神经系统重要的"免疫"细胞,它对神经发生具有广泛的调节作用。一方面,小
<正>肿瘤的生长和转移依赖于新生血管和淋巴管的形成。从血管生成的角度可将恶性肿瘤的发展分为血管生长前期和血管生长期两个阶段。当实体瘤生长至直径≥1 mm时即需要瘤内血
7075铝合金广泛应用于航空航天领域,是一种高强度、低密度的材料。在服役过程中,尤其是在沿海环境中容易发生局部腐蚀,给安全飞行带来极大隐患。国内外学者对其进行了大量研究来