论文部分内容阅读
随着互联网科技的不断提升,人类的生活和思维要领也发生了深刻的变化,尤其随着网络社会媒体的普及,每个个体作为数据的生产者与传播者,以“小我”的形式促使了网络数据的爆炸式增长。在如今的大数据信息时代,一种新型的文本格式——短文本——逐渐成为目前最为主流的传递个人情感、意见和观点的信息载体。短文本数据体现了用户对于社会现象、商品等事物的看法和评价,是用户自我的日常行为和社会经验总结,其中蕴含着的大量的普遍规律,对企业和用户来说都具有着重要的参考价值。不同于传统长文本,短文本有其独特的几个特性:1)文本长度较小;2)稀疏性强;3)实时性强;4)文本格式不标准。短文本的特征使得传统机器学习模型不能有效的提取短文本的特征,进而限制了传统的机器学习算法在短文本分类问题上的应用。深度学习网络在计算机视觉、语音识别等领域中已经取得了巨大的成功,在自然语言处理领域,深度学习网络虽然没有取得系统性的突破,但也得到很多研究人员的广泛关注。近些年来,基于卷积神经网络的短文本分类模型相继被研究学者提出,并取得了令人满意的分类效果。基于CNN模型提取特征的特点,本文提出两种改进的模型,主要内容如下:1.基于稀疏自学习卷积神经网络的短文本分类模型:目前的分类模型中卷积层的输入通常是人为约定的,这往往需要事先知道关于数据的先验知识,存在着一定的人为因素的干扰,虽然取得了不错的效果,但往往偏离最优值。在该分类模型中,在卷积层引入自学习策略,通过训练数据自己学习卷积层节点的输入组合,从而排除了人为干预的因素;在模型训练时,对于卷积层节点的参数学习,添加了L1、L2范数,从而使得大多数卷积层节点处于被抑制的状态,而只有少数节点处于被激活的状态,降低模型复杂度的同时,有利于有效特征的选择;2.基于集成深度网络的短文本分类模型:该分类模型将短文本看作词的序列,从而计算短文本中词汇之间复杂的关联性。在卷积神经网络提取特征的基础上,进一步使用递归神经网络抽象短文本数据内的复杂的依赖关系,从而实现对短文本语义信息的建模。本文通过在开源短文本数据集上进行分类实验,并与目前现有的模型进行对比,实验结果显示本文提出的模型具有较好的分类效果。