论文部分内容阅读
在大数据时代,商品评论已然成为了极具有价值的数据资源之一。对海量的商品评论信息进行挖掘是大数据分析中十分重要的内容。商品评论中蕴含着评论者对所评价对象的态度,对商品评论进行深度地挖掘能够发挥出巨大的商业价值和社会价值。为了得到更加科学和细化的决策依据,论文从产品特征细粒度出发,结合已有的研究基础和相关技术,研究了基于隐式产品特征的网络商品评论挖掘。主要工作为以下几点:1.针对中文领域的隐式产品特征识别,提出了一种采用复合规则的隐式产品特征识别方案。该方案将统计规则、依存句法和条件概率等规则结合到一起,充分考虑了句子中动词、名词、形容词蕴含的信息。采用手机评论数据对本文方案进行了检验,结果表明复合规则的采用,能更有效地发现评论中的隐式产品特征。2.对包含产品特征的主观评论句进行识别。通过将已有的情感词典和语料库中的形容词进行整合,扩充为一个新的情感词典。利用情感词典和句法分析工具,判断显式产品特征词与情感词是否在一定词距内共现并且存在依存关系来进行显式产品特征主观评论句的抽取。依据隐式句子中是否含有情感词对隐式产品特征主观评论句进行抽取。通过实验,证明了该方法的有效性。3.对主观评论句进行情感倾向分析,并按照产品特征簇对分析结果进行统计。论文提出了基于情感词典和多分类器集成的方法对主观评论句进行情感倾向判断。该方法利用基于情感词典的方法计算句子的情感倾向值,并将其作为依据从中选出部分句子作为已标注的训练数据集,避免了采用人工的方式来获取训练集。随后在自训练阶段中融入了集成学习的思想,在训练集上训练出两个有差异的分类器,综合两个分类结果对待分类的主观评论句进行褒贬义识别。本文提出的新方法能够有效地获取商品评论中产品特征的情感倾向,为客户提供更加详尽的决策依据。潜在的消费者可以根据挖掘结果做出更加科学和精准的购买决策,生产商也可以参照挖掘结果改进产品以满足消费者的需求。