论文部分内容阅读
随着科技和社会的发展,人们对信息精准化和应用智能化的需求越来越迫切。这需要搜索引擎能够理解用户所提交的问题,并快速给出精准的答案。这也需要更多的智能应用能够理解用户口语所表述的指令,并根据指令给出相应的操作和服务。语义解析是实现上述目标的核心技术之一。 语义解析是将自然语言句子解析成计算机可计算的语义表示的过程。现阶段的语义解析技术大多基于组合语义的原则:一个句子的意思是句子中各个成分的意思的组合。因此语义解析一般包含两个核心模块:结构预测和语义落地。其中结构预测是将句子映射到结构化的表示,而语义落地是将句子中的各成分都映射到物理世界中存在的物体或者关系。简单来说,结构预测指的是句子中的主谓宾等成分分别是什么;而语义落地指的是主语和宾语对应到物理世界中的哪个物体,谓语对应到物理世界中的哪个关系。现阶段的语义解析主要存在如下挑战和问题:a)语义落地部分词典覆盖度不足的问题;b)结构预测部分结构不匹配的问题;c)语义落地部分过于依赖词典的问题;d)结构预测部分过分依赖文法或者模板的问题。 本论文针对语义解析中存在的挑战以及现有工作中存在的问题,从结构预测和语义落地两个方面开展了研究,研究成果主要包括: 1.针对语义落地部分中词典覆盖度不足的问题,提出了两种相互独立的基于词典扩充学习的语义解析方法。一种是基于桥连接的词典学习语义解析方法,该方法在现有工作的基础上,在训练过程中自动构建新的词汇,并加以学习,构成新的词典。为了进一步提升词典的准确度,还设计了通用的词语-二元谓词特征模板,以及基于投票机制的核心词典获取方法。另一种是基于半监督词典学习的语义解析方法。该方法利用少量种子词汇和大量自由文本以及词典资源(如同义词词典),通过标签传播算法,从少量标注样本出发,学习大量未标注的词汇。实验结果表明,这两种方法都能有效提高词汇的覆盖度,学习到高质量的新词汇,进而有效提升基准语义解析系统的性能。 2.针对结构预测部分中结构不匹配的问题,提出了一种基于句子重写的语义解析方法。该方法利用句子重写,对给定的句子,生成与原句子意义相同,且其结构与目标语义表示结构一致的新的句子。通过对结构不匹配问题的分析和归纳,总结了两种常见的结构不匹配问题,分别是1-N型不匹配和N-1型不匹配。针对1-N型不匹配问题,本文提出一种基于词典替换的句子重写方法;针对N-1型不匹配问题,本文提出一种基于模板替换的句子重写方法。实验结果表明,该方法能有效解决结构不匹配问题,从而有效提升语义解析系统的性能。 3.针对传统语义解析方法过于依赖高质量词汇、特定文法、模板、启发式规则和人工特征的问题,提出了一种端到端的语义图生成的语义解析方法。该方法综合利用语义图的语义表示优势和循环神经网络模型的强序列预测能力,将语义解析转化为词语序列到动作序列的翻译问题,其中动作序列是对语义图构建过程的编码。在该方法中,通过将句法和语义约束条件加入解码过程,进一步改善了性能。实验结果表明,基于该方法的语义解析器的性能有明显提升。