论文部分内容阅读
随着Internet的日益普及和广泛应用,越来越多的网民开始在Internet上发表自己的观点,意见和评论。网络上的这些评论文本包含了大众群体对热点事件的态度,或者消费者对所购买的商品或者服务的情感态度等。这些信息对国家政府,商业组织以及个体消费者都有重要的价值。然而,网络上的数据规模极其庞大,并且其中很多的语句都是杂乱无章、语言不规范、无结构化的等。如何在海量的评价文本中分析出情感信息成为研究热点之一。评价搭配的抽取和倾向性分析是文本情感分析研究的重要基础任务。在线商品评论是指消费者在网络上用文字的形式表达对自己购买的商品或服务的体验和观点。这些信息对于商家和消费者都具有重要的商业价值,然而网上的很多的评价语句是散乱且海量的,用人工的方法进行情感分析几乎是不可能的,本文以在线评价语句为研究对象,对其使用自然语言处理技术进行情感分析,进而获得评价搭配和评价对象的倾向性。本文的主要研究内容和创新点如下:(1)针对评价搭配的抽取问题,本文提出了一种改进的基于核心句的评价搭配抽取方法。目前常用的评价搭配的抽取方法主要有两类:一类是基于语言特征利用机器学习模型的方法抽取评价搭配;另一类是使用基于规则或模板的方法识别评价搭配。上述两类方法中,句法分析都在评价搭配识别方面起着重要的作用,然而由于中文评价语句的不规范性,会导致句法分析结果不准确,最终影响评价搭配的抽取效果。针对这个问题,本文用提取评价语句核心句的方法有效的提高了中文评价语句的规范性,提高了句法分析的准确率。同时在处理复杂的语句时,本文着重分析了评价对象之间以及评价词之间的并列关系,提高了评价搭配抽取的召回率。实验结果表明,本文提出的方法取得了不错的抽取效果,验证了本文提出的方法是有效的,具有较好的应用价值。(2)针对评价对象的倾向性分析的问题,本文采用基于情感词语义加权的方法进行倾向性分析。评价对象的倾向性分析属于属性级倾向性分析,基本上都以词典为基础,在倾向性分析中,尤其是网络评价语句中会经常出现网络词汇,然而由于使用词典很难识别网络词汇。针对这个问题,本文使用了常用情感词置换网络词汇的方法有效的解决了网络词汇难以识别的问题。另外,针对中文评价文本中经常出现的包含隐含的评价信息的语句的问题,本文制定了潜在评价信息抽取规则,该方法有效的解决了评价语句中潜在评价信息难以识别的问题。实验结果显示本文提出的方法在覆盖率和准确率上都有所提升,验证了本文提出方法的有效性。