论文部分内容阅读
在产品评论中,现有的情感分类是根据用户评论时自主设置的星级数来分为好评差评。但是每个用户对于星级的把控不同,造成产品评论情感分类存在较大的误差。产品评论是潜在消费者在进行购买产品时,进行决策的一个重要参考内容。当分类与评论星级不匹配时,常常会引起潜在消费者对产品本身的质疑。除此之外,产品评论是商家制定销售战略,提升产品性能和服务质量不可缺少的信息来源。但是一个产品的评论可能达到上万条,人工去分析将耗费大量的人力物力,因此通过计算机对其进行分析就显得至关重要。本文以从京东商城爬取的12000条手机评论作为电子产品的代表来对产品评论进行情感分类,并针对短文本中关键词提取的准确率较低和Tri-Train算法中初始分类器的差异性不稳定以及隐性置信度筛选引入噪声影响分类器性能的问题,对现有的关键词提取技术和Tri-Train算法进行改进。主要工作如下:(1)电子产品文本评论内容偏向口语化和网络化,新词使用比较频繁。但是结巴分词识别新词的能力有限,使结巴分词的结果不是很准确。针对这一问题,本文在从京东爬取的语料数据上,使用互信息和左右熵,获取新词语,并将这些新词加入结巴词库,再用新的结巴词库进行分词,以提高分词结果的准确性。(2)针对现有关键词提取效果不佳的问题,本文分别对基于TF-IDF提取关键词的方法和基于情感词典提取关键词的方法的优缺点进行分析,提出了利用基于情感词典提取关键词和基于TF-IDF提取关键词相结合的方法进行关键词提取,并利用Word2vec进行文本特征表示的特征选择方案。该方案有效的利用了基于情感词典提取关键词和基于TF-IDF提取关键词的优点,形成了优势互补。为了提高利用情感词典提取关键词的效果,本文利用现有的手机评论文本语料构建手机评论领域的领域词典。经实验证明,该方法较好提高了分类器的准确率和F1值,改善了其分类性能。(3)Tri-Train是一种常用的半监督算法。该算法一定程度上可以利用未标记数据提高分类器的分类性能。但是该方法目前存在两个问题:一是构造的三个分类器的差异性不稳定且不够大。二利用隐式置信度筛选代替显示置信度筛选,会引入噪声数据,一定程度上降低分类器的性能。针对问题一,本文利用三种差异性能较大的算法代替原算法中只使用一种监督算法的方法,分别对有放回采样后的数据进行训练来构造三个分类器,以增大其差异性。针对问题二,本文利用文本相似性对噪声数据进行滤除。经验证,该方法在一定程度上可以提高Tri-Train算法的分类性能。