论文部分内容阅读
长文本语义匹配任务因其结构复杂、语义多变,难以捕捉实体间的潜藏的依存关系,成为了自然语言处理领域学术界和工业界的研究热点。在处理突发新闻挖掘、信息流推荐等实际场景时,对匹配算法的实时性和准确性也产生了新的要求。目前工业界仍广泛采用基于序列的循环神经网络架构,在应用于长文本任务时,存在训练时间大幅增加、难以捕捉非线性上下文关系等不足。针对这一现象,本文基于Attention机制和图卷积神经网络,从长文本语义空间结构和多粒度语义表征等方面加以考虑,针对深度语义匹配模型架构的输入层、表示层和匹配层分别进行了优化,包括构建文本的实体关联图,结合卷积特征提取和Attention机制优化语义表征,基于引入动态更新机制的图卷积进行融合匹配等。论文的主要工作及创新点如下:
1.提出了一种基于关键词和词序特征构建实体关联图的方法。相较序列化的文本输入,采用图结构表示长文本能存储语义结构信息,有助于挖掘深层语义互作用,避免耗时的爆炸性增长。因此本文基于命名实体和表意实词,结合词序和行文特征构建了实体关联图作为多粒度语义表征的基础。通过实验发现,相较GCN基准模型,基于行文结构和语序信息的S-GCN模型在评估指标(准确率和F1值)上平均提升了约2.4%。
2.提出了一种引入动态更新的图卷积融合方法。由于初始的实体关联图权重和连接方式仅由浅层的词序和语义决定,不能很好地体现基于上下文的深层语义互作用。因此,本文在GCN聚合过程中,基于关联图的结构动态更新节点和边信息,同时结合潜在的边连接更新关联图结构,挖掘并完善了概念间的互作用。通过实验发现,相较GCN基准模型,加入动态更新机制的D-S-GCN模型在评估指标上平均提升了约3.0%。
3.提出了一种基于Attention和卷积神经网络的概念语义表征方法。由于长文本语义结构复杂等特点,使用支持并行计算、特征抽取能力良好的卷积神经网络,是综合性能和效率的首选。但卷积特征抽取受卷积核尺寸的限制,为了弥补这一缺点,本文采用Attention机制获取跨段句的语义互作用,构建了以概念为关注导向的全局特征。通过实验发现,相较GCN基准模型,引入Attention机制的Att-D-S-GCN模型在评估指标上平均提升了约4.4%。
1.提出了一种基于关键词和词序特征构建实体关联图的方法。相较序列化的文本输入,采用图结构表示长文本能存储语义结构信息,有助于挖掘深层语义互作用,避免耗时的爆炸性增长。因此本文基于命名实体和表意实词,结合词序和行文特征构建了实体关联图作为多粒度语义表征的基础。通过实验发现,相较GCN基准模型,基于行文结构和语序信息的S-GCN模型在评估指标(准确率和F1值)上平均提升了约2.4%。
2.提出了一种引入动态更新的图卷积融合方法。由于初始的实体关联图权重和连接方式仅由浅层的词序和语义决定,不能很好地体现基于上下文的深层语义互作用。因此,本文在GCN聚合过程中,基于关联图的结构动态更新节点和边信息,同时结合潜在的边连接更新关联图结构,挖掘并完善了概念间的互作用。通过实验发现,相较GCN基准模型,加入动态更新机制的D-S-GCN模型在评估指标上平均提升了约3.0%。
3.提出了一种基于Attention和卷积神经网络的概念语义表征方法。由于长文本语义结构复杂等特点,使用支持并行计算、特征抽取能力良好的卷积神经网络,是综合性能和效率的首选。但卷积特征抽取受卷积核尺寸的限制,为了弥补这一缺点,本文采用Attention机制获取跨段句的语义互作用,构建了以概念为关注导向的全局特征。通过实验发现,相较GCN基准模型,引入Attention机制的Att-D-S-GCN模型在评估指标上平均提升了约4.4%。