论文部分内容阅读
文本倾向性分析是自然语言处理一个十分重要的问题,在信息过滤,电子商务,观点搜索,自动问答等领域具有广泛的应用场景。
本文主要考察句子一级的观点自动抽取和倾向性自动识别。基于现有倾向性词典设计了词语驱动的方法自动识别观点和极性。还将统计机器学习方法如朴素贝叶斯,最大熵,支持向量机等应用于观点抽取和褒贬性识别。对中英文分别进行了实验,采取了严格条件、宽松条件下的评估,与现有方法详细比较,结果表明本文算法的优越性。
观点信息总与特定话题相关,本文采用了统计机器学习方法朴素贝叶斯、最大熵和支持向量机对话题识别,话题相关性判别进行了实验,最终话题识别达到了较高的精度,相关性判别性能也优于现有方法。
关于特定领域的评价信息如产品评价信息,本文深入考察如何在句子一级进行产品特征和观点词语的自动识别。考虑到产品特征和观点词语之间具有很强的上下文依赖性,设计和实现了交叉引导和交叉训练的方法,将产品特征的自动识别和观点词语的自动抽取集成到统一的框架中。两个分类任务相互指导,相互推进,以一种迭代的交叉学习的模式不断对已有小规模的标注语料进行扩充。
本文具有如下几个创新点:
◇设计了词语驱动的方法进行观点抽取和倾向性识别;
◇使用统计机器学习算法研究中文句子的观点识别和褒贬性判别,对特征选取进行了深入研究,取得了不错的效果;
◇设计了一种机器学习算法进行话题识别和话题相关性判别,为特定话题的观点抽取做好充分的准备;
◇提出了交叉引导和交叉训练的方法同时迭代学习产品特征和观点词语,并提出交叉学习的机器学习思想:
◇关于产品特征的自动抽取和观点词识别,提出一种全新的句子级别的评价方法;
◇提出一套行之有效的产品评论数据挖掘的框架,提出一种观点摘要的生成方式,为开发实际的产品评论系统做了一个铺垫。