论文部分内容阅读
情感文本的分析工作主要就是挖掘出用户表达在文本中的情感,分析用户的意见态度。本文在对社交网络上的评价文本展开了研究工作,尤其是对于情感表达不单一或者不明显的情感文本,提出了基于情感时序距离和转折同化的文本情感分类方法,然后又在此基础上对用户的情感做出了较为细致的修饰对象识别。主要的研究如下:(1)将中文评价体系中的文本情感与情感事件发生的顺序相互结合,同时构建并且扩展其中的词典信息,将单条情感句量化成特征向量,之后使用SVM构造分类器函数,以获取每条与情感相关的语句的极性信息,将整个情感文本转化成按照时间顺序排列的情感节点序列,每个节点代表了每条情感句的极性。将情感文本转化成情感时序序列之后,我们又在整个文本结构考虑了转折语义的关系,提出了转折同化的概念,将转折语义应用在了文本结构层次。最终通过计算每个情感节点的加权情感之和,得到的最终情感值就做为情感整个文本的情感倾向性,而加权的依据就是情感节点在情感时序中出现的顺序,越是靠近情感文本最后的节点,对于文本最终的情感倾向具有越大的影响力。(2)用户在一条评价文本中表达的态度可能是多方面的,而不是单一的某一方面,不同的方面表达的意见可能不同,因此识别出每条情感剧的情感主体就变得很有必要。我们首先根据句子中的语义信息量将文本中的评价句分为非语义评价句和语义评价句。对于语义评价句,因为其包含丰富的语义倾向,我们利用Word2vec将句子中每个词转换成语义向量形式,然后通过将句子中所有的词向量进行加权矢量求和,得出整个语义评价句的语义特征形式。然后利用随机森林算法对语义评价句进行情感主体分类,在本文提供的数据集中主要是三个方面的情感主体。在得出语义评价句的情感主体后,利用我们制定的规则,对非语义评价句进行情感主体的分类。最终保证所有的评价句的情感修饰主体都被识别出,那么其中包含的情感句的情感主体也就是被识别出了。最后我们在从某购物网站爬取的评价数据集上,将本文方法与不同的文本情感分析方法进行对比分析,实验结果表明本文提出的方法提高了情感文本分类的结果,验证了方法的有效性。