论文部分内容阅读
随着互联网技术的加速进步与全面发展,各类网络社交媒体如雨后春笋般出现在人们的生活中,极大地丰富了人们交互信息的模式,人们可以在任何时间任何地点以不同的方式在网络上发表各自的看法和意见,这使得网络中的数据信息量日益庞大。由于这些信息在很多情况下都传达着人们对事物的情感态度和观点看法,为了能够从大量文本资源里筛选出可以运用于相关应用研究的有价值的情感信息,需要对文本进行一系列处理和分析,由此产生了文本情感分类这一研究热点,这对舆情监测、商品营销、金融分析等实际应用有着重要影响。目前,使用情感词典方法和机器学习方法是处理文本情感分类问题的主要途径,而深度学习作为一种新模式的机器学习算法在自然语言处理相关任务中也受到了大量国内外学者的关注。本文首先设计爬虫程序从豆瓣电影中采集影评文本,并由人工对影评情感进行类别标注,然后分别研究了词典法、朴素贝叶斯法和支持向量机法在文本情感分类任务中的运用,接着重点研究了卷积神经网络对文本情感分类的处理性能。在研究应用于文本情感分类的卷积神经网络过程中,构建了基于词汇特征的卷积神经网络模型,首先使用word2vec工具对文本进行向量化,然后结合特征提取方法和词汇向量维度大小探究了其对卷积神经网络模型分类性能的影响,得出了选择合适的文本特征提取方法和词汇向量维度大小能在一定程度上提升文本情感分类准确率的结论。考虑到基于词汇特征的卷积神经网络模型忽略了文本的词性特征及词性之间具有语义相关性这一特性,本文提出了融合词汇特征和词性特征的方法,并按照特征融合模式提出了两种WPCNN(Word and POS Convolutional Neural Network)模型结构:拼接卷积模式和独立卷积模式,在Tensorflow上构建了这两种结构的分类器模型。鉴于词性具有上下文相关性,同样使用word2vec工具训练词性向量模型对词性进行向量化。为验证提出的两种WPCNN模型的可行性和有效性,在豆瓣影评文本上就正负面情感分类问题进行相关研究,并与词典法、朴素贝叶斯法、支持向量机法,以及基于词汇特征的卷积神经网络模型进行对比实验,结果表明,融合词性特征的WPCNN模型可以更多地学习文本语义信息,对正面情感文本和负面情感文本的分类性能在多个评价指标上都有所提高。