论文部分内容阅读
随着互联网的广泛普及和应用,网络已经成为众多网民生活的一部分。海量用户通过网络发布信息,使得带有观点的文本呈爆炸式增长。同时,用户也希望通过网络获取新的资讯和了解其他人的观点。然而,由于网络中的数据规模异常庞大,用户的这项需求面临重重挑战。因此,针对Web观点挖掘的研究应运而生,以帮助用户自动获取感兴趣的网络观点。本文分别从下述四方面展开对观点挖掘的创新性研究:(1)基于合并模型的篇章情感识别。传统的情感识别算法往往只考虑利用单一粒度的文本,诸如词语、句子、篇章等。然而,网络中篇章的表达并不规范,有些篇章仅包含少量词语,有些篇章却由大量长句组成。在这种情况下,基于单一粒度的传统文本处理方法并不适用。由于不同粒度的文本情感分析算法均有各自的优点,本文提出基于合并模型的文本情感识别算法,将基于词语级的篇章情感分析和基于句子级的篇章情感分析相结合。同时,本文也对不同粒度的文本情感分析的互补性进行了探讨。实验结果表明,相对于基于词语级的篇章情感分析和基于句子级的篇章情感分析单一粒度的分析方法,基于合并模型的篇章情感分析取得了更好的结果。(2)基于对比关系的产品比较。产品比较系统通过对网络中现有产品观点的整合,实现不同产品之间的优劣比较,以此来帮助消费者了解产品和进行决策。然而,对于特定产品,网络中的用户观点错综复杂,很难获得一致。这使得观点整合极具挑战性。本文提出对比观点整合算法,从众多产品相关评论网站和社区问答系统获取用户观点,利用对比观点整合图模型,不仅解决了用户观点中所存在的闭环关系,同时也将不同来源的用户观点综合到一起。针对电子产品的实验表明,对比关系整合算法可以对所有有关候选产品的观点进行有效整合,提供较为可靠的最终比较结果。(3)基于属性层级结构的产品比较。与产品相关的比较句中包含了丰富的产品比较信息,可以较直观的帮助消费者制定购买计划。然而,在真实网络数据环境中,对比句仅占很小的比例,使得用户难以直接利用对比句进行产品比较。本文提出了一种基于产品属性层级结构的产品比较系统,采用基于类别序列规则的最近邻算法,仅利用少许比较句先验知识即可实现对比句自动识别。该系统采用基于结构的模型将用户观点重新分配,解决了在某些属性节点下观点数据稀疏的问题,并利用贪婪排序算法依据重新分配后的用户观点实现了对产品的排序。针对电子产品的实验结果表明,基于产品层级属性结构的产品比较算法可以有效反映出原始语料中的观点趋势,所提供的排序结果与人工排序结果较为接近。(4)深入分析型文本的识别。利用博客语料,对博客的书写质量进行评估,抽取出对于给定查询进行深入分析描述的博客,即精选出深入分析型博客。本文首先利用学习式查询扩展LQE (Learning Query Expansion)模型和博文平均算法进行查询相关博客的抽取,然后利用L-Qtf (Length-Query term frequency,长度-查询词词频)系数作为文本描述程度的考察系数,将博文分为深入分析型博文和肤浅型博文,最后,利用博客中所含有两种类型博文的比例,对博客的质量进行分析。实验结果显示,基于L-Qtf系数的深入分析型博客精选结果优于TREC Blog Track2009中的排名第一名的结果,验证了本文的博客精选系统的有效性