论文部分内容阅读
随着新兴电子商务平台和微博、微信等社交媒体的广泛使用,人们在享受互联网技术带来种种便利的同时,也用文字记载了自己的心情、状态、评价和观点,通过挖掘海量微博和评论文本等社会媒体数据,可以获得用户对产品的情感倾向(褒扬或者贬斥),从而指导企业的决策以及个人的消费行为。使用有监督的机器学习方法需要大量的带标签的文本数据,而无监督的文本聚类方法可以克服这一不足。针文本情感聚类问题,本文从情感聚类维度挖掘和文本语义相似性度量两个方面开展研究,主要研究内容和结论如下:(1)语料分析为了探索影响文本倾向性聚类性能的潜在因素,本文选取英文的产品评论数据和中文的微博数据作为实验语料,通过对数据集的统计以及对评论文本语言特点的分析,发现文本表示的高维、稀疏,情感的隐式表达是影响文本倾向性聚类的重要因素。(2)文本情感聚类的维度判别方法研究针对文本情感聚类问题,提出一种自动引导生成情感聚类结果的方法(DIMSC),该方法包括“特征空间压缩”和“情感维度构建”两个阶段。首先对维度进行特征化表示,然后采用观点词识别技术抽取语料中的观点词,根据维度特征词中观点词的个数,自动判别情感维度。在中、英文不同领域的评论数据上进行实验,结果表明,DIMSC在自动识别情感聚类维度中是有效的,与其他聚类算法相比获得了更高的纯度和F值。(3)基于语义子空间的文本相似度计算方法针对情感聚类中文本-特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS),并探讨基于RESS与DIMSC融合的方法对文本情感聚类效果的影响。实验结果表明,基于RESS的文本相似度计算方法,有效地解决了文本向量的高维问题,并获得较好的聚类结果。基于RESS与DIMSC融合的聚类方法取得的纯度和F值均优于单独使用RESS或DIMSC。该方法也适用于非平衡数据集。