论文部分内容阅读
互联网的普及与移动端的应用促进了电子商务的迅速发展,消费者在各大电商平台进行活动交易时产生了大量的行为数据,在线评论文本就是其中一种。在线评论文本是消费者对消费对象切身体验后以文本的形式反馈至电商平台,被作为大众的舆论观点导向,对此类观点进行有效情感分类不仅可以帮助消费者进行决策,还可以帮助商家对服务进行改善。目前,对评论短文本进行情感分类时,由于短文本存在特征维度高、领域差异性、表达隐含性等问题,从而影响分类的性能,本文对上述问题将已有情感分类方法进行改进研究,并用于酒店评论文本进行情感分类,主要研究内容如下:(1)针对领域情感词的差异性及基础情感词典的不完备而引起情感分类精确度不高的问题,提出一种融合语义的情感词扩充方法用于构建酒店评论文本的情感词典。爬取在线酒店评论文本作为语料库,结合种子词使用Word2vec和SO-PMI进行情感词的扩充,构建酒店评论文本的领域内情感词典,通过实验表明所构建情感词典在情感分类上的有效性。(2)构建一种基于依存句法分析与LDA主题模型相结合的方法进行特征提取。首先,使用依存句法分析结合情感词典对评论文本情感要素进行抽取;其次,利用LDA主题模型对情感要素进行特征项提取,该特征提取方法既直接考虑与主题和情感有关的特征,也间接考虑了影响情感的上下文语义信息。实验表明相比传统的特征提取该方法更具优势。(3)对文本情感分类方法进行改进,构建一种基于主题与情感特征的深度学习情感分类方法。将依存句法分析与LDA主题模型提取的特征项向量化表示与文本向量相融合,作为长短期记忆网络分类模型的输入向量进行情感分类,用来改善已有情感分类方法未考虑文本主题特征与语义情感信息对分类性能的影响。实验结果表明,该方法用于情感分类效果优于传统方法,能有效提高情感分类的性能。通过爬取携程网、去哪儿网、大众点评网站的在线酒店评论文本作为实验数据,仿真实验表明,本文所构建的领域情感词典与基于主题与情感特征的深度学习情感分类方法提高了对文本情感分类的性能。