论文部分内容阅读
实体情感知识获取是自然语言处理领域较为热门的一个研究课题。实体情感知识是文本中非常重要的语义单元。实体情感知识的获取一般分为两步:1)实体识别;2)获取实体对应的情感词。实体识别系统的构建通常需要大量的人工标注语料。但是,现存标注语料主要在新闻领域文本中标注人名、地名和机构名,用于新领域时性能降幅较大,且无法识别新类别。本文针对这一问题,制定多领域的中文实体标注规范并实施人工标注,最终获得多领域多类别的实体标注语料。同时,为了提高实体识别系统在新领域文本上的识别性能,本文研究了跨领域实体识别的方法。最后本文提出了一种从大规模文本中获取实体情感知识的有效方法。主要研究内容分为如下几个方面:(1)制定多种实体的标注规范并构建多领域的实体标注语料库。针对当下流行的人机交互、社交媒体、电子商务三个领域构建了人工实体标注语料,其中包含实体种类有:人名、地名、机构名、行政地名、音乐、品牌、产品、型号、规格、原料等多种具有应用价值的实体类型。在这些新构建的语料上,使用常见的序列标注模型进行实验分析。此外,为了解每种实体类型的特点,我们也进行了实体之间差异性分析。(2)研究跨领域实体识别方法。本文针对不同领域的语料特点,研究跨领域实体识别的方法来提高命名实体识别效果。本文通过对抗学习框架在源领域标注数据和目标领域标注数据上学习领域间的共有特征,通过语言模型在大规模目标领域无标注数据上学习私有特征。最后,通过这两种特征共同促进在目标领域的实体识别效果。(3)提出一种大规模实体情感知识自动获取的方法。本文分析了现有情感词典的不足,提出利用“实体对象词+情感词”进行表示。本文重点研究实体情感知识的自动获取方法。首先,利用实体识别和词性规则获取所有可能的实体和情感词,将它们的全排列组合构成我们的候选集合。然后,将候选集合转化为二部图结构,通过基于Pagerank的二部图排序算法对其进行排序。最后,提出一个基于语义相似性的提炼算法对排序结果进行进一步的提炼。整个过程通过设定合适的阈值来实现全程自动化。实验结果表明,上述方法能够有效的挖掘实体情感知识。基于此,本文构建了一个实体情感知识库并在Github上开源。