基于词典学习和结构映射的语义解析技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:feileizuhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技和社会的发展,人们对信息精准化和应用智能化的需求越来越迫切。这需要搜索引擎能够理解用户所提交的问题,并快速给出精准的答案。这也需要更多的智能应用能够理解用户口语所表述的指令,并根据指令给出相应的操作和服务。语义解析是实现上述目标的核心技术之一。  语义解析是将自然语言句子解析成计算机可计算的语义表示的过程。现阶段的语义解析技术大多基于组合语义的原则:一个句子的意思是句子中各个成分的意思的组合。因此语义解析一般包含两个核心模块:结构预测和语义落地。其中结构预测是将句子映射到结构化的表示,而语义落地是将句子中的各成分都映射到物理世界中存在的物体或者关系。简单来说,结构预测指的是句子中的主谓宾等成分分别是什么;而语义落地指的是主语和宾语对应到物理世界中的哪个物体,谓语对应到物理世界中的哪个关系。现阶段的语义解析主要存在如下挑战和问题:a)语义落地部分词典覆盖度不足的问题;b)结构预测部分结构不匹配的问题;c)语义落地部分过于依赖词典的问题;d)结构预测部分过分依赖文法或者模板的问题。  本论文针对语义解析中存在的挑战以及现有工作中存在的问题,从结构预测和语义落地两个方面开展了研究,研究成果主要包括:  1.针对语义落地部分中词典覆盖度不足的问题,提出了两种相互独立的基于词典扩充学习的语义解析方法。一种是基于桥连接的词典学习语义解析方法,该方法在现有工作的基础上,在训练过程中自动构建新的词汇,并加以学习,构成新的词典。为了进一步提升词典的准确度,还设计了通用的词语-二元谓词特征模板,以及基于投票机制的核心词典获取方法。另一种是基于半监督词典学习的语义解析方法。该方法利用少量种子词汇和大量自由文本以及词典资源(如同义词词典),通过标签传播算法,从少量标注样本出发,学习大量未标注的词汇。实验结果表明,这两种方法都能有效提高词汇的覆盖度,学习到高质量的新词汇,进而有效提升基准语义解析系统的性能。  2.针对结构预测部分中结构不匹配的问题,提出了一种基于句子重写的语义解析方法。该方法利用句子重写,对给定的句子,生成与原句子意义相同,且其结构与目标语义表示结构一致的新的句子。通过对结构不匹配问题的分析和归纳,总结了两种常见的结构不匹配问题,分别是1-N型不匹配和N-1型不匹配。针对1-N型不匹配问题,本文提出一种基于词典替换的句子重写方法;针对N-1型不匹配问题,本文提出一种基于模板替换的句子重写方法。实验结果表明,该方法能有效解决结构不匹配问题,从而有效提升语义解析系统的性能。  3.针对传统语义解析方法过于依赖高质量词汇、特定文法、模板、启发式规则和人工特征的问题,提出了一种端到端的语义图生成的语义解析方法。该方法综合利用语义图的语义表示优势和循环神经网络模型的强序列预测能力,将语义解析转化为词语序列到动作序列的翻译问题,其中动作序列是对语义图构建过程的编码。在该方法中,通过将句法和语义约束条件加入解码过程,进一步改善了性能。实验结果表明,基于该方法的语义解析器的性能有明显提升。
其他文献
互联网规模的空前扩大和数据量的急剧增加加大了人们获取信息的难度,同时也造成了大量的垃圾信息充斥着当今的网络。如何迅速地、高效地检索和访问各个领域的信息资源已成为
复合文档作为文档发展的一种趋势,是解决文档格式日趋复杂、文档互操作困难等问题的有效途径。但现有复合文档技术并不能够较好的支持文档的异构特性,同时也不能够较好的满足文
随着计算机技术的飞速发展和中国教育信息化水平的不断提高,实现办公的无纸化、网络化成为IT界关注和研究的热点。本文以抚顺市城市住房用地初始分割子系统的开发过程为背景,
IPv6协议作为下一代网络的核心协议,较好的解决了IPv4协议存在的缺陷,满足未来网络基础设施在数量和质量上的需求。保障连接安全性是实现IPv6部署的重要课题之一。目前,支持I
本文首先介绍了Web安全的基本概念、Web攻击技术和Web安全检测技术,然后从Web安全检测系统的功能入手,分析了Web安全检测系统的功能需求,并据此提出了Web安全检测系统的架构
随着信息科学技术特别是计算机技术的不断发展,计算机网络技术空前广泛的应用于现今世界。社会各部门对于计算机网络的依赖程度也在不断提高,计算机网络已经成为关系到国计民
运筹学是从20世纪40年代发展起来的重要学科,最优化(又称数学规划)是运筹学的重要问题之一,它关注在一定变量的约束条件下寻找给定目标函数的最大值或最小值。绝大多数学者研究优
随着全球经济一体化的深入发展,敏捷的、不受限制的业务集成的需求已经成为关键的业务需求。相较于其他存在各种制约的传统业务集成技术,SOA作为公认的IT业务集成趋势实现了
随着医院信息系统的普及使用,在临床的诊断过程中,医院信息系统产生了海量的医学病例资源,这些未经加工的医学病例资源中蕴含着极为丰富的知识。然而,由于这些资源存储分散、
三维几何已逐渐成为继声音、图像、视频之后的新一代数字媒体,这一媒体自诞生起就与CAD、计算机仿真、计算机动画等领域密切相关,也是计算机图形学工作者们关心和关注的研究