论文部分内容阅读
文本情感分类,也称为意见挖掘或情感定向分析。自21世纪初以来,情感分类已发展为自然语言处理领域的研究热点。在该领域,根据处理文本的不同粒度,大致分为三个级别:篇章级,句子级,方面级。本文着重研究短文本,即句子层面的情感分类研究与分析。当今社会,随着互联网技术的不断发展,各电商平台和社交网络也得到了飞速发展,人们越来越多的喜欢在互联网上发表自己的观点,或针对某一社会热点,或针对网购产品的使用体验等。其中,微博便以其简单,便捷,信息分享的高实时性等特点,迅速成为了国内网络舆情的发源地和集中地。网络舆情与公众的生活息息相关,同时也关系着社会的稳定与发展。通过对网络舆情进行分析和研究,可以防范重大事件的发生,帮助政府准确快速地做出决策。因此,本文对微博进行情感倾向性分析,以便更好地监控网络舆情,为政府决策提供支持。本文选取了长度不超过140个字节的微博数据集,对传统的小批量梯度下降算法进行改进,提出了一种基于热重启与余弦退火的训练批量周期变化策略SGDR,该方法不是单调的或者随机的改变batch_size,而是使batch_size在合理的边界值之间循环变化。使用循环batch_size而不是固定值进行训练,可以用于加速模型收敛,提高模型精度。然后基于已有的激活函数,提出了一种新的激活函数——SReLU函数,缓解梯度弥散,解决输出偏移问题。最后基于TextCNN,采用SGDR算法以及SReLU函数对微博短文本进行了研究,并对比多种神经网络模型和激活函数进行实验验证,得到了最终的实验结果。首先,本文使用Google提供的word2vec来构建和提取本文中使用的词向量模型。首先,本文采用基本神经网络模型,设置卷积核心信道数,卷积核宽度,学习速率等文本卷积神经网络参数。得到关于本数据集的最佳模型,在此模型的基础上验证本文提出的基于热重启与余弦退火的训练批量周期变化策略SGDR进行验证,然后对比其他激活函数验证本文提出的激活函数的有效性,最后结合本文所提出的方法和激活函数进行综合实验,并与其他神经网络模型进行对比实验,得到了宏查准率91.66%、宏查全率96.24%、准确率97.41%以及宏F1值93.21%的实验结果。