基于朴素贝叶斯的文本分类算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:gsdfs334
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展使得人们进入了大数据时代,互联网作为当今获取信息的主要渠道,与人类的关系也越来越密切。然后互联网中的绝大部分信息都是以文本形式存在,从而寻找一种能够有效处理文本数据进而对文本数据进行准确分类的方法成为当今具有重要研究价值的领域。朴素贝叶斯算法作为机器学习算法中的经典算法之一,以其模型简单、分类速度快、分类效率高等优点,成为了文本分类算法的重要研究内容。对于朴素贝叶斯文本分类系统而言,一方面由于传统朴素贝叶斯理论是在假设了所有特征相互独立的基础上成立的,即特征词与特征词之间是相互独立的,这一定程度上影响了分类器的性能,因此如果能够寻找一些方法来削弱或消除特征独立性假设就可以相应的提高分类器的性能。另一方面对于海量的数据,如果不进行特征提取,就会增加分类系统的负担,降低分类器的性能,所以本文分别从文本分类系统的三个方向进行处理,提出了基于IGDC特征加权的朴素贝叶斯文本分类算法(IGDCNB),基于IGDC深度加权的朴素贝叶斯文本分类算法(IGDC-DWNB),改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)算法。本文的主要贡献:(1)研究并改进了朴素贝叶斯特征加权算法模型,提出了基于IGDC特征加权的朴素贝叶斯文本分类模型。该模型通过全新的方式计算特征在每个类别和每个文档中两个维度的信息增益,并通过线性归一化的方式结合了两个维度的信息,大大削弱了朴素贝叶斯的特征条件独立性假设。(2)研究了朴素贝叶斯深度加权模型,针对朴素贝叶斯模型自身的缺陷,改进了朴素贝叶斯模型条件概率的训练方式,将IGDC应用于朴素贝叶斯的深度加权中,提出了基于IGDC深度加权的朴素贝叶斯文本分类模型,进一步削弱了其特征条件独立性假设。(3)首次将快速相关性过滤算法(FCBF)应用于文本分类中,综述了FCBF算法的应用领域及其在文本分类中存在的缺陷,改进了特征相关性的计算方式,并优化了原始FCBF算法步骤,提出了改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)的朴素贝叶斯文本分类算法,在保证特征维度相同时,能够更加快速的选择出更加优越的特征,并且消耗更少的时间。
其他文献
建设什么样的班级文化$$在湖南省株洲市景弘中学,最有特色的就是班级学堂文化建设。全校58个班,每个班级根据学生的需求,可以选择某一位名人的名字作为班名,并且根据名人生平
期刊
紫外辐射过强会对身体产生许多负面影响。在海滩进行旅游活动的同时,怎样享受阳光,而又尽量避免紫外线危害,是每个海滩游客需要注意的问题。本文采集全国18个浴场天气状况数据,采
元认知是对认知的认知,在教育、语言领域中有着广泛而深刻的影响.本文提出了在大学英语教学中,加强对学生元认知能力的培养是提高学生注意力、理解力、记忆力,教会学生学习的
作为治疗类风湿性关节炎的常用中药——虫类中药,无论其自身的炮制和所处复方的剂型都有非常明显的特征,炮制工艺和剂型制作对以蛋白质为主要成分的虫类中药的药效和成分的改
<正>由香港珠宝制造业厂商会主办的"2006国际珠宝设计创意大赛"历时近两年,终于落下帷幕,决赛已于2006年12月7日结束,次日即举行了颁奖典礼,此次入围作品将在第十四届香港国
以质性研究的范式,对当代大学生就业过程中诚信缺失的表现及对策进行深入的探索。运用扎根理论,采用深度访谈的方法收集资料,导入NVivo8.0软件进行编码并寻找概念。结果建立
1918年2月开始的歌谣运动常被学者认为经历了从刘半农到周作人的过渡,从“文艺的”到“学术的”转折。然而,当追溯周作人歌谣兴趣的缘起和发展、其与歌谣研究会的关系,特别是
现代教育技术在数学教学中的运用,引发了教学理念、教学方式及教学过程的变革,为教师的教和学生的学开辟了一道亮丽的风景线,为提高数学学习的有效性创设了条件、提供了可能
教育的发展必须与社会的发展同步。建设应用型大学,培养应用型人才是学校根据自身条件和实际情况所提出的办学定位。在这样的指导思想下,本科学前教育专业的课程设置也应该向应
本文从四个方面阐述了构成中华民族精神凝聚力的优良道德传统,具体分析了优良道德传统的文化凝聚力功能,明确指出了文化凝聚力有利于维护社会稳定与发展的重大现实意义。