论文部分内容阅读
随着互联网的发展,网络上出现了大量的文本和图片数据,这些海量的数据为自然语言处理和图像识别提供了丰富的训练集。在自然语言处理任务中,情感分析具有重要的研究意义,它可以为决策者提供一定的参考信息。例如:它可以帮助商家了解购物者对商品的满意度,也可以帮助政府人员对热点事件进行舆情把控。
对于文本数据,计算机不能直接对它进行计算,所以解决情感分析问题的第一步是要将文本转换成向量,即词转向量。目前进行词转向量主要使用的是词嵌入方法,该方法以无监督的方式从语料中学习上下文信息,通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。实验证明词嵌入能有效的获取词的语义信息,但是对有些语义相近、情感相反的词却不能区分开来,将其直接应用到情感分析任务来说是不合适的。因此本文提出了融合情感信息的情感分析方法,借助已标注的情感词典来获取词的情感信息,并结合词嵌入模型改进情感分析任务的效果。
文中提出了两种改进方案:(1)第一种方案首先使用词嵌入方法获取词向量,并将其定义为词的语义向量;然后,利用情感词典和词对情感的影响程度生成词的情感向量;之后,采用两种不同的融合方式将语义向量和情感向量进行融合,最后把融合的结果输入到分类器进行情感分类。(2)第二种方案以预训练的词嵌入模型为基础,首先,通过该模型获取到与目标词语义相近的前k个词;然后利用情感词典将这k个词分为两部分,一部分词与目标词情感相近,另一部分与之情感相反;之后,利用这些词与目标词情感极性的异同与强度对目标词的词向量进行优化,使目标词的词向量靠近与其情感相近的词,远离与其情感相反的词;最后,使用优化后的词向量作为特征向量训练情感分类器。实验表明,上述两种方案都提高了情感分析的实验结果,另外,文中还将两种方案进行结合共同提高情感分析的性能,结合后的实验结果又有了进一步的提高。
对于文本数据,计算机不能直接对它进行计算,所以解决情感分析问题的第一步是要将文本转换成向量,即词转向量。目前进行词转向量主要使用的是词嵌入方法,该方法以无监督的方式从语料中学习上下文信息,通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。实验证明词嵌入能有效的获取词的语义信息,但是对有些语义相近、情感相反的词却不能区分开来,将其直接应用到情感分析任务来说是不合适的。因此本文提出了融合情感信息的情感分析方法,借助已标注的情感词典来获取词的情感信息,并结合词嵌入模型改进情感分析任务的效果。
文中提出了两种改进方案:(1)第一种方案首先使用词嵌入方法获取词向量,并将其定义为词的语义向量;然后,利用情感词典和词对情感的影响程度生成词的情感向量;之后,采用两种不同的融合方式将语义向量和情感向量进行融合,最后把融合的结果输入到分类器进行情感分类。(2)第二种方案以预训练的词嵌入模型为基础,首先,通过该模型获取到与目标词语义相近的前k个词;然后利用情感词典将这k个词分为两部分,一部分词与目标词情感相近,另一部分与之情感相反;之后,利用这些词与目标词情感极性的异同与强度对目标词的词向量进行优化,使目标词的词向量靠近与其情感相近的词,远离与其情感相反的词;最后,使用优化后的词向量作为特征向量训练情感分类器。实验表明,上述两种方案都提高了情感分析的实验结果,另外,文中还将两种方案进行结合共同提高情感分析的性能,结合后的实验结果又有了进一步的提高。