论文部分内容阅读
微博分类作为处理和组织大量微博数据的关键技术,可以很大程度上解决微博信息爆炸的现象。但由于微博文本具有长度短、口语化等特点,传统的文本分类技术对微博文本不太适用。随着移动设备的普及,微博消息向着更加多媒体化的方向发展,越来越多的图片出现在微博中,微博文本与微博图像共同构成了微博的两个模态。每个模态的微博数据有着自己的特点,不同模态之间存在着一定的关联性和互补性。根据微博的这一特点,本文分别从文本模态,图像模态,多模态融合三个方面对微博分类问题进行了研究,主要贡献如下: (1)实现了基于文本模态的微博分类方法 在文本模态,本文实现了一个基于Word2Vec语义扩充的卷积神经网络模型。针对微博短文本的特点,本文使用了大量的新闻语料训练出一个Word2Vec模型,在该模型基础上对微博文本进行语义扩充并构建特征矩阵。在特征矩阵的基础上,使用卷积操作模拟“滑动窗口”的效果,实现了基于Word2Vec语义扩充的微博分类模型。实验结果表明,基于Word2Vec语义扩充的微博文本分类方法效果整体上显著好于传统的词袋模型,F1值比词袋模型提升了约3.4个百分点,达到80.53%。 (2)实现了基于图像模态的微博分类方法 在图像模态,由于本文的训练数据规模较小,难以单独训练图像语义识别模型。针对这个问题,本文采用了迁移学习的思想,使用在ImageNet数据集上预训练的Inception-v3模型对微博图像进行特征提取,把模型中倒数第二层的输出作为图像的特征向量。在图像特征向量的基础上,使用深度神经网络把图像特征向量映射到微博分类体系中。实验表明,在微博文本模态信息缺失或含有很大噪声的情况下,基于图像模态的微博分类是可行的。 (3)实现了基于多模态融合的微博分类方法 在文本和图像两个单模态模型的基础上,本文实现了两种基于多模态融合的微博分类方法。第一种是基于语言模型的单模态微博分类结果融合,即在两个单模态模型输出的概率向量基础上,结合语言模型、文本长度、图像个数等特征进行单模态结果的融合。第二种是基于多模态特征融合的微博分类,该方法把两个模态的特征使用卷积等方法进行规格统一,构成一个数据流,使用LSTM模型对两个模态进行融合。实验表明,基于多模态融合的微博分类效果要显著优于单模态的模型。对比基于Word2Vec语义扩充的微博分类结果,特征融合的方法F1值提升了4.4个百分点,达到了84.94%。