论文部分内容阅读
文本情感分析通过计算机技术自动识别、标注、分类或抽取出自然语言文本中蕴含的主观性内容,从而判断出文本的情感倾向.词表示学习是文本情感分析的关键前提,其核心问题是从非结构化的文本中获取和解析语义知识,以便从数学角度诠释词所蕴含的深层语义和句法关系,实现机器对自然语言的理解和感知.随着互联网文本表达朝着多渠道、多主题和口语化的方向发展,其蕴含的冗余和动态不确定性对语义的抽象和提取提出了更高的要求,使得情感分析问题变得更为复杂和具有挑战性.鉴于此,本课题以提炼文本上下文为切入点,根据文本语料的统计特性优化现有的词表示学习模型,并将其应用到细粒度情感分析问题上,以下是主要研究内容:(1)由于上下文和词之间存在着距离分布不平衡的问题,本文提出了一种基于显著特征的词向量提取方法.为了最大限度的保留文本信息的真实性和可靠性,该方法设计了一种基于距离的语义相关性准则,并在此基础上根据词的上下文分布为其制定了上下文稀疏性标准,研究了一种确定词的显著特征序列的方法.该方法能够克服文本中存在的歧义、无序和噪声等现象,具有统筹全局信息的优点,实验表明该方法在被运用到现有模型时能够极大地提高其在语义相似度任务上的表现.(2)由于上下文和词之间还存在着位置分布不稳定的问题,本文提出了一种基于精确上下文的词向量抽取方法.为了根据特定语义任务的需求自适应地筛选不同距离和位置变动模式下的上下文信息,该方法通过引入余弦公式强化距离对上下文的缩放效应,尤其是对远距离上下文的抑制作用,并通过统计分析上下文的位置变动模态推导出上下文的分散性度量公式,以此强化在目标词窗口内固定位置频繁出现的上下文以及近似均匀地分布在窗口内的上下文的作用.该方法能够提升上下文对语义的诠释能力,实验表明其在不同语义度量任务上具有很强的灵活性和自适应性.(3)由于传统深度学习模型在解决方面情感分类任务时通常包含方面提取和方面分类等众多复杂的步骤,本文提出了一种基于注意力词向量的方面情感分类方法.为了消除词向量语义空间中固有的多义词语义模糊以及反义词歧义性等缺点,该方法根据注意力机制提出了注意力向量的概念,其中的空间注意子向量旨在衡量空间维度与分类主题之间的相关性,而情感注意子向量旨在确定词的情感属性的重要性;此外,该方法还提出了一种基于细胞自动机的蜂群算法用于深度优化该注意力向量.经过该注意力向量加权后的词向量可以直接作为卷积神经网络的输入用于解决方面情感分类问题,无需改进模型的结构,因此具有普适性和实用性等特点,实验表明该方法在与其他模型相比时显示出很大的优越性.综上所述,本文紧扣表示学习词向量提取及其在情感分析中的应用这一研究课题,采用层层递进地方式展开研究.一方面,根据上下文的距离和位置变动模态等统计信息深入地探讨了提炼上下文信息对词的语义表示的重要性;另一方面,根据词向量空间的特性将语义和空间维度相对应解决方面情感分类问题.希望本工作能够为词的表示学习和文本情感分析的发展提供一些新的思路和参考价值。