论文部分内容阅读
互联网的日益普及和迅速发展,催生了大规模的非结构化数据,在这些非结构化数据中,文本数据又是其中很重要的一类。如何从数据量庞大的文本数据中提取和学习有效的信息是当前热门的研究领域。其中,文本分类是文本挖掘领域一个重要的研究方向,并且有着广泛的应用场景。而文本分类本身是一个极具挑战性的问题。首先,传统的文本表示模型认为文本是由无数个单词构成,并基于特征词典采用one-hot编码的形式,用一个高维稀疏向量表示一篇文档,该方法由于向量的高稀疏度限制了文本分类的准确性。其次,传统的文本分类算法大部分都直接应用基本机器学习分类算法,模型过于简单导致其分类结果也并不理想。针对以上挑战,本文首先提出了一种文本表示模型;其次,基于该文本表示模型,利用分类器集成的方法,构建了一个高效的文本分类模型,实现了对文本更加准确地分类。本文研究了文本分类的原理和实现步骤,首先对中文文档进行了预处理,具体包括分词,去停词,然后对词进行特征选择,基于选取的特征词,提出了一种基于词向量Word2Vec动态加权的文本表示模型,充分考虑了不同语义特征在不同文章中的不同重要程度。基于该文本表示模型,本文提出了一种基于分类器集成思想的文本分类算法,提高了文本分类的准确率。本文提出的文本表示模型中,首先采用Word2Vec算法将文档特征词转换成固定维度的词向量,然后计算每个特征词在文档中的TF-IDF值,并以特征词的TF-IDF值作为权重,对所有特征词的词向量进行动态加权。该文本表示模型可以同时充分利用不同特征词在不同文档中的重要度信息和词向量的语义信息,实现了对文档的有效表示。实验结果表明,本文提出的基于词向量Word2Vec动态加权的文本表示模型较传统文本表示方法具有更好的文本特征表示效果。基于本文提出的文本表示模型,利用集成分类的思想,本文通过Bagging算法,提出了基于词向量动态加权模型的支持向量机集成方法,分别就不同基分类器数量的集成情况进行了对比实验,并与单个SVM分类效果进行了比较。实验验证了我们提出的基于词向量动态加权的分类器集成算法的有效性,并找出了基分类器个数的最优解。基于以上模型,本文在真实的微信公众号文章数据集上进行了实验验证,还设计并实现了一套基于微信公众号文章的分布式文本分类系统。该系统的功能还包括微信公众号文章抓取、类标自动标注,将文本分类技术应用到实际场景中。