论文部分内容阅读
大规模文本的观点挖掘已成为研究热点,基于机器学习技术的情感分析应运而生,特征降维是其中的关键环节。方法:常见的特征降维方法有DF、IG、MI和CHI,这些方法运用了统计的思想,没有考虑特征词之间的语义关系,在一定程度上影响了分类效果。针对中文产品评论的特点,采用依存关系对句子进行句法分析,并结合常见的降维方法进行情感属性降维。最后,采用SVM分类器进行文本分类实验。结果:降维后的特征词能更好地表示文本。结论:基于依存句法关系的情感属性降维方法能够有效提高情感分类的效果。
随着社交网络与在线商城的融合,越来越多的用户在线发表产品评论。产品评论是消费者根据自己对商品的使用体验,从使用者的角度来描述商品属性和评价商品性能。Podium于2016年的调查显示,60%的网民至少每周都会浏览在线商品评论,其中93%认为商品评论影响了他们的购买决策。情感分析利用自然语言处理和文本挖掘等技术,自动识别和分析主观性评论文本信息。其中,情感属性的降维是影响情感分析效果的重要环节。本文以依存句法关系为基础,对情感属性的降维方法进行比较,旨在优化降维模型,从而提高情感分析的效果。
情感分类相关研究综述
(一) 情感分类基本流程
网络评论的情感分类是通过对非结构化的网络评论文本进行分析,自动将其判断为正面评价或负面评价,从而识别消费者的观点。基本过程:经过预处理、文本表示(特征项选择、特征项降维、特征项权重设置)、分类器处理,最终得到一个有关情感类别的输出。
(二)特征项选择方法
特征项选择,即选取语义单元作为特征项。特征项既要真实地反映文档的情感信息,也要对不同文档有较强的区分能力,可以是词、词的组合、N元组等。
1、选取词或词的组合。徐军等利用朴素贝叶斯和最大熵方法对新闻语料进行情感分类。实验显示,选择形容词和名词作为特征项时,具有较高分类准确率,且分类性能好于只选择形容词[1]。周杰等针对新闻评论的特点,选取不同的特征集、特征维度、词性进行分类测试,研究显示,名词和动词的分类效果好于形容词和副词 [2]。
2、选取N-gram。Pang等分别以词频作为权重的Unigrams、以布尔值作为权重的Unigrams、Bigrams、Unigrams + Bigrams等作为情感特征项。实验表明,使用布尔值作为权重的Unigram作为特征的分类效果最好,使用Bigram作为特征未达到预期的分类准确率[3]。Zhang ZQ等选取N-gram作为情感特征项,结果显示,Bigram的分类效果好于Unigram 和Trigram[4]。Cui等指出Pang的语料较小,无法体现N-grams(n≥3)的优势,高阶N-gram项能够提高情感分类准确率[5]。与Cui的结论相反,Ng等发现将Bigram和Trigram加入Unigram项后能够提高SVM的分类性能,但单独使用Unigram、Bigram或Trigram作为特征项,分类准确率随着阶数增加而下降[6]。
(三) 情感属性降维
通过向量空间模型,非结构化的评论文本可以转换成可机器处理的结构化数据。采用向量空间模型需要降维,即根据语料库的文本生成特征项的初始集。
常用降维方法有:文档频率法(Document Frequency,DF)、信息增益法(Information Gain,IG)、统计量法(Chi-square Statistic,CHI)、互信息法(Mutual Information,MI)等。学者对特征项降维方法进行比较。刘勰等对DF、IG、CHI进行比较,实验显示DF法优于CHI和IG[7]。Yao等对DF、MI、CHI和IG进行比较,实验显示,DF 方法的分类效果较好,同时发现MI方法不适用于情感特征项的降维[8]。
此外,还需要设置特征权重。根据选取出的特征项,对训练集和测试集的每一条语料进行权重赋值、归一化等处理,将文本语料转化为特征向量形式。
(四)依存句法分析
在进行情感分析的句子中,需要确定评论的主题和修饰它的词。所谓“依存”是指词与词之间支配与被支配的关系,一个关系连接两个词语,这种关系不是对等的,而是有方向的,处于支配地位的成分即为核心词语,而处于被支配地位的成为被称为修饰词语。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,从而可以确定核心词语与修饰词语 [9]。
一般来说,依存句法分析的任务有三个:(1)判断输入的字符串是否属于某种语言;(2)消除输入的句子中词法和结构等方面的歧义;(3)分析输入句子的內部结构,如成分构成、上下文关系。常见的应用有以下两种:(1)利用句法分析结果,对捜索问题的通用性改写和答案标题匹配,提高改写和匹配的质量,从而改善搜索结果的质量。(2)利用句法信息对机器翻译结果做调序处理。基于此,本文将依存句法分析引入情感属性降维中,以期解决传统基于词频统计的降维方法中存在的忽略文本语义信息的缺陷,提高情感属性降维的准确性和可信度。
(五) 研究评述
在情感分析研究中,分类算法相对成熟,但是情感属性降维方面仍存在不足。依存句法分析通过解析语言单位内部各成员之间的依存关系,挖掘词语构成句子过程中发生的搭配关系并找出句子核心成分,基于此本文提出依存句法分析会对情感属性降维效果起正向作用的实验假设。因此,本文提出了基于依存句法关系的特征降维方法,将特征降维和依存句法分析相结合。依存句法分析有助于从句法结构找出支配地位的特征词,让情感属性的特征降维结果更具代表性和准确性,弥补传统特征提取中忽略文本结构信息的不足。
实验设计
(一)实验流程
实验流程分为文本表示、语料训练和文本分类。文本表示模块,抓取在线评论语料进行预处理,单句依存句法分析并进行节点重要度计算;设立对比实验,对照组采用DF\IG\MI\CHI方法进行特征项降维,实验组结合依存句法分析进行特征项降维;特征项权重计算,构建空间向量表示文本。语料训练模块,采用SVM分类算法,对训练集语料进行训练。文本分类模块,对测试集语料进行情感极性分类实验,以文本分类精度验证并比较降维效果优劣。 (二)语料库
选择手机作为评论主体。中关村在线是全球第一中文科技门户,每日影响超过80%的采购用户。因此选择中关村在线的三星GALAXY Note 4(N9100/公开版/双4G)评论。抓取10000条评论,7000条用于训练,3000条用于测试,训练集和测试集中的正类和负类评论均比为1:1,待分类文本属于平衡数据。
(三)评论语料的预处理
选用哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)” 进行依存句法分析。中文评论在语言组织、句式表达上较随意。这会导致LTP在切词、词性标注的过程中产生大量空格,且会错误识别标点的词性,对后续分类器的训练结果造成影响。
为了后期处理单条评论的简洁性和易读性,人工将原始语料进行预处理。将空格、标点符号作为分句的依据。而对于“、”,比如“屏幕、电池都很好”,作为一个分句处理,无需分开。
(四)依存句法分析及节点重要度计算
依存语法通过分析语言单位内成分之间的依存关系,揭示其句法结构。利用依存关系确定关联词对,既可保证关联词对之间存在一定句法关联,又可实现有向关联,从而保证文本网络构建的准确性。依存句法分析标注关系(共14种)。
在LTP中对单句的依存句法分析结果示例如下图1:
LTP将句子切分成词语视图。其中,节点代表词语;边代表特征词之间的语义关联;边的权重代表词之间语义关联的程度。由此得到:大→屏幕(SBV)、屏幕→手机(ATT)、效果→显示(ATT)、好→效果(SBV)、好→很(ADV)等。
将LTP单句分析的结果批量导出,其中包含大量有标点符号产生的关联对,LTP依存句法分析将其标注为WP。如图3中的大→,(WP)。本文将其删除,以得到最终的有效关联词对集。
(3)节点重要度的计算
文本网络的边由节点所代表的特征词的依存句法分析结果确定。边的权重由其所连接的节点代表的特征词之间存在关联的频次决定,且需考虑边的方向。本文参考了文献[10]进行边权重计算,公式如式(1)所示:
其中,wij表示由节点i指向节点j的边的权重, fre(ti )和fre(tj )分别表示节点i和j代表的特征词在文本Di中出现的频次,fre(ti,tj )表示词对“i→j”在文本Di的有效关联词对集中出现的频次。
根据边权重计算节点重要度的公式如式(2)所示:
其中,Qi表示节点i的节点重要度,wij表示由节点i指向节点j的边的权重,wji表示由节点j指向节点i的边的权重。
(五)特征项降维
1、特征选择
若把所有切词结果作为文本的特征项,特征向量空间的维数将过大,增加计算复杂度,也对分类器性能产生负面效应。特征选择在保留文本核心信息表述的情况下,剔除不重要的词,降低特征向量的维度,缩短训练时间,提高分类处理的精度。本文参考文献[7]选取特定的词性特征来减少抽取成本、减少噪音。
文献[10]的实验结果显示:在句子级别的情感分类中,名词、形容词、副词、动词单独作为特征时达到的分类效果排序依次是:形容词>动词>副词>名词。形容词最为关键,评论的情感倾向大多由形容词表达;动词作为分类特征时所能达到的分类效果较好;程度副词和被修饰词语一同作为特征词对文本的情感极性有很大影响;名词作为特征项产生的分类贡献微乎其微,从分类成本上讲,多一类词性增加了选取和筛选成本。由此,本文选取词性为形容词、动词、副词作为文本特征项。
2、特征降维
特征降维方法DF、IG、MI、CHI的性能在不同的文本分类任务和不同的语言环境下结论不同。为此,本文将在后续电子产品评论情感极性判断的研究中展开比较。
本文将降维方法计算出的特征项评分值和根据依存句法关系得到的节点重要度相结合,得到特征项的综合评分值。实验发现,DF\IG\MI\CHI特征项评分值和节点重要度归一方程,确定量纲比例为1:0.5时分类效果最好。
3、特征项权重计算
在空间向量模型里,特征项的权重代表了它的表述能力、相关度和重要性。同时,特征项的权重大小将影响文本分类的效果。常用的方法有布尔权重、频度权重、TF-IDF权重。
本文采用最简便的布尔权重法,如果特征项在语料中出現,则其权重计为1;如果特征项在语料中不出现,则其权重计为0。
(六)文本分类器的选择
常用的分类算法有:Rocchio、k-最近邻算法(KNN)、朴素贝叶斯(NB)、支持向量机(SVM)、线性最小平方拟合(LLSF)和神经网络法(NNet)等。
在情感分类领域,Pang等[11]、Ni等[12]、 Mullen等[13]和Whitelaw等[14]研究了SVM在情感分类中的表现,发现SVM比其他分类算法能达到更好的精度。因此,本文选择SVM作为分类算法,并选择台湾大学开发的LIBSVM软件包实施分类。
实验结果分析
(一)特征抽取数量的阈值
特征数量的阈值是指令分类效果最佳的特征数目。数目较少时,每个文本的特性无法充分表达,分类效果显然不佳;数目增加,文本充分表达,分类效果也会改善;当数目达到一定程度,再增加特征数目会加重分类成本,增加特征噪音,导致分类效果降低。为此,针对不同语料环境,需要通过实验来确定特征最佳数目。在不同降维方法下,不同特征抽取数量下所能达到的分类精度,如表1所示。
共有4组实验,分别以50、100、200、300为特征数量确定最佳抽取数量的范围。结果显示,分类精度先提高后降低。每种降维方法拐点基本都在100左右,最高精确度能达到78.79%。不同的情境下合理的特征数会有所不同,为此,下文比较不同特征降维方法时,特征抽取数量均取100。 (二)DF\IG\MI\CHI的特征降维结果
分别采用DF\IG\MI\CHI构造特征评估函数,计算特征项的评分值。表2分别给出各个特征降维方法下评分值排名前5位的特征项。
(三)基于依存句法关系的特征降维结果
根据公式(2),计算节点重要度。表2没有考虑依存句法关系对评分值的影响。如果引入基于依存句法分析得到的节点重要度,可得到特征项的综合评分值,如表3所示。
(四) 不同特征降维方法下的分类性能比较
1阶段使用传统的4种降维方法DF\IG\MI\CHI,2阶段将依存句法分析结果和4种传统降维方法结合,分别抽取100个特征词,分别进行4次分类训练实验。实验结果见图2。
在特征抽取数量为100的情况下,得到以下结论:
(1)不同降维方法达到的分类精度略有不同,但是均保持在73%以上,因此本文的分类实验是有效的,可作为推导以下实验结论的基础。
(2)单一使用传统降维方法时,分类效果最好的是DF法,分类精度达到78.79%。将依存句法分析和传统降维方法相结合,分类效果最好的是依存句法分析结合DF法,分类精度达到79.34%。
(3)图2显示,“结合依存句法分析”总位于“单一传统方法”之上,即每组对比试验中,结合了依存句法分析的降维方法之分类精度更高。由此得到趋势假设,依存句法分析对降维效果起到正向作用。
(五)实验结论
(1)特征项数量不足会导致文本信息表达不充分,导致分类精度下降。增加特征项数量能够提高特征空间的维度,从而提高文本的分类精度。但是,过多的特征项也会造成信息紊乱,降低文本分类效率。基于此,確定特征规模时应平衡效率和准确率的关系。在本文语料集规模下,特征数量在100附近分类效果最佳。因此,语料规模不同的情况,应通过实验来确定特征项的数量以保证文本分类试验准确度。
(2)选用不同词性和词性组合作为特征项,分类的效果也不同。实验证明,选取形容词为特征项的实验分类效果比较理想,动词、副词次之。对大量文本进行分类时,可以选择形容词、动词、副词作为特征项,以提高文本分类的准确度。
(3)实验结果表明,将特征降维和依存句法分析相结合,降维效果更好,弥补了传统特征提取中忽略文本结构信息的不足,能够在一定程度上提高文本分类的效果,为后续的情感分析奠定了基础。
结语
以中文在线评论为研究对象,分别采用基于词频的降维方法、结合依存句法分析的降维方法选择特征项。实验研究证明,依存句法分析对情感属性降维效果起到正向作用。今后将在以下几方面进一步探讨:
(1)依存句法分析中计算节点重要度方法。
(2)情感属性降维结果和依存句法分析结果的拟合方法。
(3)非结构化的数据中的某些标点符号和表情符号也表达了强烈的用户情感。希望在后续的研究中将纳入数据集进行处理。
随着社交网络与在线商城的融合,越来越多的用户在线发表产品评论。产品评论是消费者根据自己对商品的使用体验,从使用者的角度来描述商品属性和评价商品性能。Podium于2016年的调查显示,60%的网民至少每周都会浏览在线商品评论,其中93%认为商品评论影响了他们的购买决策。情感分析利用自然语言处理和文本挖掘等技术,自动识别和分析主观性评论文本信息。其中,情感属性的降维是影响情感分析效果的重要环节。本文以依存句法关系为基础,对情感属性的降维方法进行比较,旨在优化降维模型,从而提高情感分析的效果。
情感分类相关研究综述
(一) 情感分类基本流程
网络评论的情感分类是通过对非结构化的网络评论文本进行分析,自动将其判断为正面评价或负面评价,从而识别消费者的观点。基本过程:经过预处理、文本表示(特征项选择、特征项降维、特征项权重设置)、分类器处理,最终得到一个有关情感类别的输出。
(二)特征项选择方法
特征项选择,即选取语义单元作为特征项。特征项既要真实地反映文档的情感信息,也要对不同文档有较强的区分能力,可以是词、词的组合、N元组等。
1、选取词或词的组合。徐军等利用朴素贝叶斯和最大熵方法对新闻语料进行情感分类。实验显示,选择形容词和名词作为特征项时,具有较高分类准确率,且分类性能好于只选择形容词[1]。周杰等针对新闻评论的特点,选取不同的特征集、特征维度、词性进行分类测试,研究显示,名词和动词的分类效果好于形容词和副词 [2]。
2、选取N-gram。Pang等分别以词频作为权重的Unigrams、以布尔值作为权重的Unigrams、Bigrams、Unigrams + Bigrams等作为情感特征项。实验表明,使用布尔值作为权重的Unigram作为特征的分类效果最好,使用Bigram作为特征未达到预期的分类准确率[3]。Zhang ZQ等选取N-gram作为情感特征项,结果显示,Bigram的分类效果好于Unigram 和Trigram[4]。Cui等指出Pang的语料较小,无法体现N-grams(n≥3)的优势,高阶N-gram项能够提高情感分类准确率[5]。与Cui的结论相反,Ng等发现将Bigram和Trigram加入Unigram项后能够提高SVM的分类性能,但单独使用Unigram、Bigram或Trigram作为特征项,分类准确率随着阶数增加而下降[6]。
(三) 情感属性降维
通过向量空间模型,非结构化的评论文本可以转换成可机器处理的结构化数据。采用向量空间模型需要降维,即根据语料库的文本生成特征项的初始集。
常用降维方法有:文档频率法(Document Frequency,DF)、信息增益法(Information Gain,IG)、统计量法(Chi-square Statistic,CHI)、互信息法(Mutual Information,MI)等。学者对特征项降维方法进行比较。刘勰等对DF、IG、CHI进行比较,实验显示DF法优于CHI和IG[7]。Yao等对DF、MI、CHI和IG进行比较,实验显示,DF 方法的分类效果较好,同时发现MI方法不适用于情感特征项的降维[8]。
此外,还需要设置特征权重。根据选取出的特征项,对训练集和测试集的每一条语料进行权重赋值、归一化等处理,将文本语料转化为特征向量形式。
(四)依存句法分析
在进行情感分析的句子中,需要确定评论的主题和修饰它的词。所谓“依存”是指词与词之间支配与被支配的关系,一个关系连接两个词语,这种关系不是对等的,而是有方向的,处于支配地位的成分即为核心词语,而处于被支配地位的成为被称为修饰词语。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,从而可以确定核心词语与修饰词语 [9]。
一般来说,依存句法分析的任务有三个:(1)判断输入的字符串是否属于某种语言;(2)消除输入的句子中词法和结构等方面的歧义;(3)分析输入句子的內部结构,如成分构成、上下文关系。常见的应用有以下两种:(1)利用句法分析结果,对捜索问题的通用性改写和答案标题匹配,提高改写和匹配的质量,从而改善搜索结果的质量。(2)利用句法信息对机器翻译结果做调序处理。基于此,本文将依存句法分析引入情感属性降维中,以期解决传统基于词频统计的降维方法中存在的忽略文本语义信息的缺陷,提高情感属性降维的准确性和可信度。
(五) 研究评述
在情感分析研究中,分类算法相对成熟,但是情感属性降维方面仍存在不足。依存句法分析通过解析语言单位内部各成员之间的依存关系,挖掘词语构成句子过程中发生的搭配关系并找出句子核心成分,基于此本文提出依存句法分析会对情感属性降维效果起正向作用的实验假设。因此,本文提出了基于依存句法关系的特征降维方法,将特征降维和依存句法分析相结合。依存句法分析有助于从句法结构找出支配地位的特征词,让情感属性的特征降维结果更具代表性和准确性,弥补传统特征提取中忽略文本结构信息的不足。
实验设计
(一)实验流程
实验流程分为文本表示、语料训练和文本分类。文本表示模块,抓取在线评论语料进行预处理,单句依存句法分析并进行节点重要度计算;设立对比实验,对照组采用DF\IG\MI\CHI方法进行特征项降维,实验组结合依存句法分析进行特征项降维;特征项权重计算,构建空间向量表示文本。语料训练模块,采用SVM分类算法,对训练集语料进行训练。文本分类模块,对测试集语料进行情感极性分类实验,以文本分类精度验证并比较降维效果优劣。 (二)语料库
选择手机作为评论主体。中关村在线是全球第一中文科技门户,每日影响超过80%的采购用户。因此选择中关村在线的三星GALAXY Note 4(N9100/公开版/双4G)评论。抓取10000条评论,7000条用于训练,3000条用于测试,训练集和测试集中的正类和负类评论均比为1:1,待分类文本属于平衡数据。
(三)评论语料的预处理
选用哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)” 进行依存句法分析。中文评论在语言组织、句式表达上较随意。这会导致LTP在切词、词性标注的过程中产生大量空格,且会错误识别标点的词性,对后续分类器的训练结果造成影响。
为了后期处理单条评论的简洁性和易读性,人工将原始语料进行预处理。将空格、标点符号作为分句的依据。而对于“、”,比如“屏幕、电池都很好”,作为一个分句处理,无需分开。
(四)依存句法分析及节点重要度计算
依存语法通过分析语言单位内成分之间的依存关系,揭示其句法结构。利用依存关系确定关联词对,既可保证关联词对之间存在一定句法关联,又可实现有向关联,从而保证文本网络构建的准确性。依存句法分析标注关系(共14种)。
在LTP中对单句的依存句法分析结果示例如下图1:
LTP将句子切分成词语视图。其中,节点代表词语;边代表特征词之间的语义关联;边的权重代表词之间语义关联的程度。由此得到:大→屏幕(SBV)、屏幕→手机(ATT)、效果→显示(ATT)、好→效果(SBV)、好→很(ADV)等。
将LTP单句分析的结果批量导出,其中包含大量有标点符号产生的关联对,LTP依存句法分析将其标注为WP。如图3中的大→,(WP)。本文将其删除,以得到最终的有效关联词对集。
(3)节点重要度的计算
文本网络的边由节点所代表的特征词的依存句法分析结果确定。边的权重由其所连接的节点代表的特征词之间存在关联的频次决定,且需考虑边的方向。本文参考了文献[10]进行边权重计算,公式如式(1)所示:
其中,wij表示由节点i指向节点j的边的权重, fre(ti )和fre(tj )分别表示节点i和j代表的特征词在文本Di中出现的频次,fre(ti,tj )表示词对“i→j”在文本Di的有效关联词对集中出现的频次。
根据边权重计算节点重要度的公式如式(2)所示:
其中,Qi表示节点i的节点重要度,wij表示由节点i指向节点j的边的权重,wji表示由节点j指向节点i的边的权重。
(五)特征项降维
1、特征选择
若把所有切词结果作为文本的特征项,特征向量空间的维数将过大,增加计算复杂度,也对分类器性能产生负面效应。特征选择在保留文本核心信息表述的情况下,剔除不重要的词,降低特征向量的维度,缩短训练时间,提高分类处理的精度。本文参考文献[7]选取特定的词性特征来减少抽取成本、减少噪音。
文献[10]的实验结果显示:在句子级别的情感分类中,名词、形容词、副词、动词单独作为特征时达到的分类效果排序依次是:形容词>动词>副词>名词。形容词最为关键,评论的情感倾向大多由形容词表达;动词作为分类特征时所能达到的分类效果较好;程度副词和被修饰词语一同作为特征词对文本的情感极性有很大影响;名词作为特征项产生的分类贡献微乎其微,从分类成本上讲,多一类词性增加了选取和筛选成本。由此,本文选取词性为形容词、动词、副词作为文本特征项。
2、特征降维
特征降维方法DF、IG、MI、CHI的性能在不同的文本分类任务和不同的语言环境下结论不同。为此,本文将在后续电子产品评论情感极性判断的研究中展开比较。
本文将降维方法计算出的特征项评分值和根据依存句法关系得到的节点重要度相结合,得到特征项的综合评分值。实验发现,DF\IG\MI\CHI特征项评分值和节点重要度归一方程,确定量纲比例为1:0.5时分类效果最好。
3、特征项权重计算
在空间向量模型里,特征项的权重代表了它的表述能力、相关度和重要性。同时,特征项的权重大小将影响文本分类的效果。常用的方法有布尔权重、频度权重、TF-IDF权重。
本文采用最简便的布尔权重法,如果特征项在语料中出現,则其权重计为1;如果特征项在语料中不出现,则其权重计为0。
(六)文本分类器的选择
常用的分类算法有:Rocchio、k-最近邻算法(KNN)、朴素贝叶斯(NB)、支持向量机(SVM)、线性最小平方拟合(LLSF)和神经网络法(NNet)等。
在情感分类领域,Pang等[11]、Ni等[12]、 Mullen等[13]和Whitelaw等[14]研究了SVM在情感分类中的表现,发现SVM比其他分类算法能达到更好的精度。因此,本文选择SVM作为分类算法,并选择台湾大学开发的LIBSVM软件包实施分类。
实验结果分析
(一)特征抽取数量的阈值
特征数量的阈值是指令分类效果最佳的特征数目。数目较少时,每个文本的特性无法充分表达,分类效果显然不佳;数目增加,文本充分表达,分类效果也会改善;当数目达到一定程度,再增加特征数目会加重分类成本,增加特征噪音,导致分类效果降低。为此,针对不同语料环境,需要通过实验来确定特征最佳数目。在不同降维方法下,不同特征抽取数量下所能达到的分类精度,如表1所示。
共有4组实验,分别以50、100、200、300为特征数量确定最佳抽取数量的范围。结果显示,分类精度先提高后降低。每种降维方法拐点基本都在100左右,最高精确度能达到78.79%。不同的情境下合理的特征数会有所不同,为此,下文比较不同特征降维方法时,特征抽取数量均取100。 (二)DF\IG\MI\CHI的特征降维结果
分别采用DF\IG\MI\CHI构造特征评估函数,计算特征项的评分值。表2分别给出各个特征降维方法下评分值排名前5位的特征项。
(三)基于依存句法关系的特征降维结果
根据公式(2),计算节点重要度。表2没有考虑依存句法关系对评分值的影响。如果引入基于依存句法分析得到的节点重要度,可得到特征项的综合评分值,如表3所示。
(四) 不同特征降维方法下的分类性能比较
1阶段使用传统的4种降维方法DF\IG\MI\CHI,2阶段将依存句法分析结果和4种传统降维方法结合,分别抽取100个特征词,分别进行4次分类训练实验。实验结果见图2。
在特征抽取数量为100的情况下,得到以下结论:
(1)不同降维方法达到的分类精度略有不同,但是均保持在73%以上,因此本文的分类实验是有效的,可作为推导以下实验结论的基础。
(2)单一使用传统降维方法时,分类效果最好的是DF法,分类精度达到78.79%。将依存句法分析和传统降维方法相结合,分类效果最好的是依存句法分析结合DF法,分类精度达到79.34%。
(3)图2显示,“结合依存句法分析”总位于“单一传统方法”之上,即每组对比试验中,结合了依存句法分析的降维方法之分类精度更高。由此得到趋势假设,依存句法分析对降维效果起到正向作用。
(五)实验结论
(1)特征项数量不足会导致文本信息表达不充分,导致分类精度下降。增加特征项数量能够提高特征空间的维度,从而提高文本的分类精度。但是,过多的特征项也会造成信息紊乱,降低文本分类效率。基于此,確定特征规模时应平衡效率和准确率的关系。在本文语料集规模下,特征数量在100附近分类效果最佳。因此,语料规模不同的情况,应通过实验来确定特征项的数量以保证文本分类试验准确度。
(2)选用不同词性和词性组合作为特征项,分类的效果也不同。实验证明,选取形容词为特征项的实验分类效果比较理想,动词、副词次之。对大量文本进行分类时,可以选择形容词、动词、副词作为特征项,以提高文本分类的准确度。
(3)实验结果表明,将特征降维和依存句法分析相结合,降维效果更好,弥补了传统特征提取中忽略文本结构信息的不足,能够在一定程度上提高文本分类的效果,为后续的情感分析奠定了基础。
结语
以中文在线评论为研究对象,分别采用基于词频的降维方法、结合依存句法分析的降维方法选择特征项。实验研究证明,依存句法分析对情感属性降维效果起到正向作用。今后将在以下几方面进一步探讨:
(1)依存句法分析中计算节点重要度方法。
(2)情感属性降维结果和依存句法分析结果的拟合方法。
(3)非结构化的数据中的某些标点符号和表情符号也表达了强烈的用户情感。希望在后续的研究中将纳入数据集进行处理。