论文部分内容阅读
随着互联网技术的不断发展和Web2.0技术的普及,产品的在线评论数量越来越多。人们需要借助于情感分析技术从海量信息中获取对产品的情感倾向,以帮助自己形成对产品的正确认识。但是传统的文本级和句子级情感分析已经无法满足人们全面细致的了解产品的各部件和性能的需求,因此特征级情感分析越来越受到人们的重视。本文围绕特征级情感分析,展开了相关的理论和应用研究,主要工作包括:(1)基于Lasso的特征选择方法及其在产品特征自动提取中的应用。产品特征的自动抽取是情感分析中的重要研究内容。本文提出了一种基于特征选择和词频及共现剪枝的提取产品特征的方法。首先引入在分类任务中被广泛采用的Lasso(Least Absolute Shrinkage and Selection Operator)方法,将产品特征抽取问题转换成分类中的特征选择问题,通过Lasso生成稀疏模型的特性得到产品候选特征集;然后根据候选特征集中的特征在文本中出现的频率进行排序和词频剪枝;最后经过进一步的合并和PMI(Point Mutual Information)剪枝处理,得到最终的产品特征集。在中文产品评论集上的实现验证了本文提出方法的有效性。(2)依存关系和褒贬指向规则(DCDT, Derogatory and Commendatory Direction Tendency)在提取产品特征观点词中的应用。对评价文本进行依存分析,基于产品评价特征,利用依存关系和褒贬指向规则提取出与产品特征相关的观点词,构成观点词集;然后使用情感词典判断情感词集中每个情感词的极性;最后给出每个产品特征的情感极性判断结果。实验结果表明,本方法可以高效地得到对产品各方面的情感分类的结果,能够很好地帮助用户获得对产品各部分和性能的褒贬倾向的全面了解。