论文部分内容阅读
随着信息化时代的到来,电子文本数量呈现高速增长的趋势,中文文本分类技术的需求与日俱增。在文本分类的过程中,文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题。对于此类问题,本文在主流的特征降维算法基础上进行改进,并将其应用于新闻文本领域中,主要工作如下:1.针对传统特征降维方法的不足,提出了一种基于CHI(Chi-square Statistics)和PCA(Principal Component Analysis)的混合特征降维方法(CHI-PCA)。该方法使用CHI方法初筛出类别特征词,之后使用PCA方法进行二次降维,进一步精简特征空间。经过与传统特征降维方法DF、IG、CHI和PCA方法的对比实验,结果显示,在不同特征维度下,所提方法在Softmax回归以及SVM分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类效果也是可观的,F1值最高可达97.2%。实验结果表明了CHI-PCA方法的有效性,在降低特征维度的同时,还提高了分类性能。2.针对短文本因受字数限制而在分类中存在的特征稀疏问题,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的短文本分类算法。该算法使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,结合Softmax回归分类算法进行分类,改进了传统特征降维方法不能从语义层面上进行建模的缺点,且可以解决一词多义问题。通过与基于Text CNN模型的短文本分类算法的对比实验,结果显示本文算法在测试集上的整体F1值最高可达93%,高出基于Text CNN模型算法6%。实验结果表明了所提方法的有效性,提高了短文本的分类性能。3.针对中文文本分类技术在新闻领域的应用,提出了一种基于多模型融合的新闻文本分类算法。该算法基于以上研究,在学习阶段分别使用CHI-PCA方法结合SVM分类算法对新闻内容进行学习,以及使用BERT模型结合Softmax回归算法对新闻标题进行学习,随后在分类阶段将学习到的两个模型采用概率值最大的策略进行融合。通过在真实新闻语料库上的实验,结果显示模型融合后的分类效果优于融合前,表明了所提方法的有效性。