论文部分内容阅读
互联网技术的飞速发展使得人们进入了大数据时代,互联网作为当今获取信息的主要渠道,与人类的关系也越来越密切。然后互联网中的绝大部分信息都是以文本形式存在,从而寻找一种能够有效处理文本数据进而对文本数据进行准确分类的方法成为当今具有重要研究价值的领域。朴素贝叶斯算法作为机器学习算法中的经典算法之一,以其模型简单、分类速度快、分类效率高等优点,成为了文本分类算法的重要研究内容。对于朴素贝叶斯文本分类系统而言,一方面由于传统朴素贝叶斯理论是在假设了所有特征相互独立的基础上成立的,即特征词与特征词之间是相互独立的,这一定程度上影响了分类器的性能,因此如果能够寻找一些方法来削弱或消除特征独立性假设就可以相应的提高分类器的性能。另一方面对于海量的数据,如果不进行特征提取,就会增加分类系统的负担,降低分类器的性能,所以本文分别从文本分类系统的三个方向进行处理,提出了基于IGDC特征加权的朴素贝叶斯文本分类算法(IGDCNB),基于IGDC深度加权的朴素贝叶斯文本分类算法(IGDC-DWNB),改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)算法。本文的主要贡献:(1)研究并改进了朴素贝叶斯特征加权算法模型,提出了基于IGDC特征加权的朴素贝叶斯文本分类模型。该模型通过全新的方式计算特征在每个类别和每个文档中两个维度的信息增益,并通过线性归一化的方式结合了两个维度的信息,大大削弱了朴素贝叶斯的特征条件独立性假设。(2)研究了朴素贝叶斯深度加权模型,针对朴素贝叶斯模型自身的缺陷,改进了朴素贝叶斯模型条件概率的训练方式,将IGDC应用于朴素贝叶斯的深度加权中,提出了基于IGDC深度加权的朴素贝叶斯文本分类模型,进一步削弱了其特征条件独立性假设。(3)首次将快速相关性过滤算法(FCBF)应用于文本分类中,综述了FCBF算法的应用领域及其在文本分类中存在的缺陷,改进了特征相关性的计算方式,并优化了原始FCBF算法步骤,提出了改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)的朴素贝叶斯文本分类算法,在保证特征维度相同时,能够更加快速的选择出更加优越的特征,并且消耗更少的时间。