论文部分内容阅读
观点分析是对人们发表的关于实体、事件及属性的观点、评价和情绪的可计算化研究。此领域的研究起源于观点极性分类和主观性分类,即将其作为一个文本分类问题。观点极性分类是判别一个观点文档或者句子表达表示出的观点极性,如正面或者负面。主观性分类则是检测一段文本是主观还是客观性描述。然而,许多真实环境下的应用依赖于更详细的分析,例如,用户通常想知道观点所针对的目标对象。因此,观点分析问题是一个由许多方面和子问题组成的复杂问题。本文针对目前的应用需求和存在的研究难点和问题,对面向社交媒体的观点分析中的若干子问题进行了深入研究,具体内容主要包括:1.为了应对社交媒体数据观点分析中的文本稀疏问题,本文提出了一种针对短文本的联合情感-主题模型来解决。与其他主题模型建模文档的生成过程不同,本文直接对整个语料转换成的词对集合的生成过程建模。在模型的生成过程中,每个句子中的所有词有相同的情感极性,每一个词对有相同的主题。在两个社交媒体数据集上的三个实验任务中,通过定性分析验证了主题发现的有效性,同时定量分析数据表明文档级观点分类性能也有较大提升。2.评价目标短语分组是细粒度观点分析的一个重要子任务。现有的方法主要基于窗口上下文模型,其假设前提是同一个目标组的短语拥有相似的上下文。针对窗口上下文模型在实际应用中的问题,本文提出基于词嵌入的语义相似度来进行上下文加权表示,同时编码词汇知识作为带置信度的约束,并提出灵活约束的K-Means算法进行目标短语分组。本文还提出一个容量上下限假设,其基础是对包含每个评价目标的句子在整个评论语料中出现频率的统计分布。在此假设基础上,提出容量约束的K-Means算法来编码容量限制约束。通过在公共测试集上的评估,证明提出的方法进一步提高了评价目标短语分组性能。3.评价目标短语分组面临的另一个挑战是同义词现象和上下文依存。为了应对此问题,本文提出一种基于注意力机制的深度距离度量学习方法,该方法同时兼顾目标短语表示和上下文表示。本文首先利用评论文本的特点,自动产生目标短语样本对进行距离监督学习。然后将目标短语及其上下文的词嵌入表示输入到基于注意力的神经网络,来学习上下文特征表示。目标短语的表示和上下文特征表示共同用于学习深度特征子空间,此子空间中正样本对间的距离会被尽量缩小,而负样本对间的距离会被尽量放大,最后采用K-Means算法在子空间上进行聚类。提出的方法通过特征变换和距离度量学习的方式提高了评价目标短语分组的性能。4.针对基于图模型的观点摘要方法在句子主题群组表示和摘要内容多样性方面的不足,本文提出基于超图的顶点增强随机游走框架进行摘要生成。该框架首先利用层级狄利克雷过程(HDP)模型学习句子上的词-主题概率分布,用来更好的进行主题群组表示,然后建立超图来描述这种分布关系和句子间的点对相似关系。最后采用随时间变化的超图顶点增强随机游走算法来对句子进行排序,从而确保句子的多样性。通过在标准测试集上的实验,证明了提出的方法可以有效提升自动摘要系统的性能。5.情感相关词嵌入表示学习方法是提高Twitter观点分类的有效手段,此方法的学习过程中同时编码n-gram和距离监督的tweet观点极性。其隐含的假设是一条tweet中的所有词的观点极性都与tweet的整体极性一致,而忽略了词本身的极性信息。为了解决这个问题,本文提出同时利用词典资源和距离监督信息来学习情感相关词嵌入。具体方法是一种多级别的情感增强词嵌入学习算法,此方法利用一个并行非对称神经网络来建模n-gram、词级别情感信息和tweet级别观点极性信息。通过在公共测试集上的评估,说明加入情感词典资源并同时兼顾词情感与tweet观点极性信息可以有效提升Twitter观点分类的性能。