论文部分内容阅读
网络上的产品评论对消费者和生产厂商都有重要意义。随着国内网络用户的增多,产品评论数量激增,但因缺乏合理的组织方式,导致信息获取困难。本文针对产品中文评论,使用自然语言处理相关的方法和技术,设计了探测用户对产品特征主观倾向的系统方法,实现了产品评论中特征词、观点词的识别和用户针对特征词的主观倾向分析。本文主要研究内容包括:
1.结合句法规则和主题相关度度量,对评论中的特征词进行识别。在产品特征词识别方面,目前广为使用的方法是:人工定义和自动提取。人工定义特征词词典的方法移植性、适应性差。自动提取中使用关联规则对名词频繁项进行挖掘,覆盖率较低。针对这些缺点,本文提出首先使用语法规则对候选特征词进行提取,然后使用主题相关度算法,计算候选特征词与评论主题的相关度,实现特征词过滤。
2.<特征词,观点词>关联对的识别。本文认为,评论中最有价值的信息是:用户对产品的哪些特征做了什么评价,而<特征词,观点词>正能体现这一点。在<特征词,观点词>关联对的识别中,广为使用的有两类方法:一类是先识别特征词(观点词),然后在最近距离内根据词性选取观点词(特征词);另一类是基于监督学习的方法,学习关联对的出现模式,通过训练模型对新的评论进行关联对识别。前者方法简单,但极易引入错误匹配;后者通用性好,但是需要大量标注数据的支持,而标注数据的获得代价较大。本文基于识别出的观点词,结合依存关系,对评论语句中的关联对进行抽取。
3.基于似然率测试方法的观点词语义倾向判断。广为使用的是基于WordNet等语义词典的方法。这类方法实现简单、快速,但有两个严重的缺点:①仅能识别词典中的形容词,而实际的观点词包含动词;②完全依靠词典,对上下文依赖的观点词将判断失误。本文使用似然率测试的方法,通过计算观点词与种子词的语义关联度得到观点词的语义极性。该方法对观点词的词性没有要求,并且由于是基于统计的方法,对于种子词集合以外的词同样适用。