论文部分内容阅读
随着计算机技术和网络技术的发展以及网络用户对于各类数据内涵需求的增强,近年来意见挖掘得到了越来越多的关注,成为了一个研究热点。意见挖掘的结果可应用于互联网的多个领域中,如有害信息过滤、社会舆情分析、指导用户消费、商品性能改进和用户兴趣挖掘等,对经济和政治均起着重要的作用,具有很大的应用价值,所以对其研究具有重大的意义。但从目前国内外的研究来看,当前对于英文文本意见挖掘的研究大多在单一领域,且产品领域较多,中文意见挖掘研究同样大多限制在产品领域,且观点表达抽取研究工作甚少;另外不论是英文还是中文意见挖掘研究,目前对于其他非产品领域如新闻、旅游和医学等领域的观点表达抽取相关研究鲜见于报道,导致这些领域中隐藏在数据背后的观点无法被获知,这将在很大程度上限制普通用户和政府机构等理解这些领域中的信息并做出正确的决策,因此着手进行跨领域的意见挖掘研究特别是观点表达和评价对象-观点表达对的抽取十分必要。本文研究的问题是"跨领域中文评论的意见挖掘研究",研究的目标是在国内外单一领域主要是产品领域意见挖掘研究的基础上,通过自然语言处理的各种技术与方法,对跨领域评论的意见挖掘各主要方面进行研究,深度挖掘跨领域评论文本中隐藏的各类特征。意见挖掘的研究主要有四个部分:评价对象抽取、观点表达抽取、评价对象-观点表达对抽取以及评价对象的情感倾向判断,本文主要从这四个部分存在的问题入手并结合跨领域文本的特征分别对其进行深入研究。这四个部分存在的问题包括:如何提升评价对象的抽取效果?如果提升观点表达的抽取效果?如何提高评价对象-观点表达对的匹配正确率?如何提高评价对象的情感倾向判断能力?本文主要的研究工作及成果包括以下几个方面:(1)评价对象抽取。基于目前抽取评价对象常用的两种方法规则匹配和机器学习模型方法在精确率和召回率上各有优势,但F值都较低的问题,提出了一种能够结合两种方法优势且又适合于跨领域中文评论文本的方法,即利用规则抽取原句的核心句交由CRFs训练,同时除了词、词性本身外,还确定了若干种句法关系模式作为CRFs的训练特征,既能利用机器学习模型的高精确率,也能提高其召回率;(2)观点表达抽取。利用机器学习模型CRFs的良好的标注能力对跨领域中文评论的观点表达进行抽取,并尝试用情感词词典和评价对象等语言特征来提升句子的抽取效果;(3)评价对象-观点表达对抽取。在原有靠近原则和句法关系的基础上进一步考察更具有普遍性和通用性的搭配模式,提出了改进的最近邻搭配算法,同时评价对象-观点表达对的抽取结果也能对评价对象进行修正,提高了评价对象的抽取精度;(4)确定评价对象的情感倾向。利用两种方法确定跨领域评论文本中评价对象的情感语义,一是通过褒/贬义情感词典和否定词词典,并借助于《哈工大信息检索研究室同义词词林扩展版》;二是利用机器学习模型SVM。本文的主要创新点为:(1)提出了抽取核心句的方法,并且将核心句和CRFs相结合用来抽取评价对象;同时基于句子的句法关系构建了若干评价对象的句法模式,并将其作为CRFs的特征;(2)在中文观点表达及评价对象和观点表达的搭配关系上进行了语料的标注;(3)在评价对象-观点表达对抽取过程中提出了利用改进的最近邻算法,同时此算法可以进一步提高评价对象的抽取精度;(4)在对评价对象的情感倾向作判断时应用基于词典资源的方法和基于机器学习算法SVM的方法进行对比实验,并得出跨领域文本在算法选择上的特殊之处。