基于分布语义假设的分布式文本表示研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:anyok1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为语言的基本单元,单词与句子的表示,一直是自然语言处理领域的核心问题。传统的单词表示通常采用独热表示,将单词表示一个个互相独立的向量。在此基础上,研究人员构建了空间向量模型来表示句子。但是,由于独热表示的先天缺陷,这些表示方式存在诸多严重问题,如难以处理同义词、多义词问题,以及严重的数据稀疏问题。与独热表示将单词离散符号化不同,分布式表示将单词表示为多维连续实数向量,编码了单词的语义信息,很自然地克服了上述独热表示存在的问题。近年来,伴随着深度学习的崛起,分布式表示已广泛应用于自然语言处理的各方面,并取得了极大成功。  在此背景下,如何学习文本的分布式表示便成为一个关键问题。分布语义假设,认为如果两个单词具有相似的上下文,则这两个单词语义相似。这为从大规模无监督语料中学习单词分布式表示提供了一个切实可行的方案。此外,近两年又有工作证实,在句子层面,分布语义假设同样成立。基于此,本文以分布语义假设为基础,对单词与句子两个层面的分布式表示学习进行了系统的研究。具体地,本文研究了分布语义假设在文本表示中的三个关键问题:上下文的定义;上下文的稀疏问题;以及用于句子表示时,句子内部信息的建模。  首先,本文研究了分布语义假设的上下文定义问题,并提出了两个更完整地建模单词外部上下文的单词表示学习模型。分布语义假设的关键,在于上下文的定义。本文首先分析了现有单词表示学习模型,将这些工作归纳为对两类上下文的建模。而后,本文将这两类上下文与单词间两种基本关系相对应,以文档为上下文建模了单词间的横向组合关系,而以周围单词为上下文则建模了单词间的纵向聚合关系。分析发现现有工作都只建模了单词间两种基本关系中的一种,丢失了单词间的部分关联信息。针对此问题,本文提出了两个同时建模单词间横向组合与纵向聚合关系的单词表示学习模型。鉴于此,本文提出了两个模型建模了单词所在文档与其周围单词两种上下文,以同时捕捉单词间的两种关系。实验结果证实了本文所提模型的有效性,也说明了这两种上下文在单词表示学习中的重要性。  然后,针对分布语义假设在单词表示学习中的数据稀疏问题,本文提出两个模型,引入单词内部词素信息来帮助学习单词表示。分布语义假设,使用上下文的统计信息来学习单词的表示,这使得它在处理稀缺词时面临严重的数据稀疏问题。而另一方面,词法学认为单词由一系列更小的词素构成,且含有相同词素的单词往往具有相似的语义或功能。因此,本文在分布语义假设基础上引入单词的内部词素信息,提出了两个同时建模单词外部上下文与内部词素信息的单词表示学习模型。实验证实,本文所提模型不仅在稀缺词表示上表现更好,并且可以捕捉更细粒度的语义信息。此外,本文还将所提模型应用于短语表示学习,并在短语类比任务上取得显著提升。  最后,作为前面工作的延伸,本文研究了基于分布语义假设的句子表示学习,并提出了基于注意力机制的句子表示学习模型。使用分布语义假设学习句子表示,面临着比单词层面更加严重的数据稀疏问题。因此,对于句子内部信息的建模尤为重要。但现有工作对句子内部信息建模并不充分,并未考虑句子中不同单词所起作用的不同。针对此问题,本文在循环神经网络基础上引入注意力机制,自动学习不同位置的权重,以组合得到最终的句子表示。在句子分类、句子关联任务的多个数据集上,均验证了本文所提模型的有效性。  综上所述,针对文本分布式表示学习问题,基于分布语义假设,本文开展了三个研究工作分别解决文本表示学习中的三个关键问题。首先,同时建模单词的两种上下文,以更完整地捕捉单词的语义。而后,引入单词内部词素信息,以缓解分布语义假设外部上下文的数据稀疏问题。最后,基于句子层面的分布语义假设,本文引入注意力机制以更好地建模句子内部信息。
其他文献
深入分析iSCSI协议特性,探讨协议错误恢复的原理与CRC检错关键问题对研究网络存储系统具有重要的参考价值.将iSCSI协议与成熟的网络存储管理协议FibreChannel协议进行深入比
在时空数据库中引入数据区域的划分,将时空属性视为特殊属性,数据分别存放在非时空属性区、有效时空属性区和历史时空属性区,利用三字节的属性标识位标识数据位置.从而将时空
在分析了以光磁技术为核心的现代存储系统缺点的基础上,深入研究了能大幅提高其小写性能的技术———缓存磁盘技术.设计并实现了其在LINUX操作系统上的具体方案.对当前以光磁
该文依托数字图书馆的建设背景,针对数字资源建设中的内容相关性特点,重点研究了当前数字图书馆界的热点问题之一——开放链接技术.该文首先从OpenURL标准出发,研究分析了开
尽管实体关系模型(ERD)是进行数据库建模的标准方法,但其建模结构的描述能力有限.UML是当前非常流行的一种建模语言,它具有丰富的建模符号,为许多CASE工具所支持.但是,UML只
实时性主要考虑的是数据与事务的定时限制,而连接是数据操作中非常耗时的操作,并且并行查询优化有着庞大的执行计划搜索空间,因此,PRTS-I尽可能地避免数据偏斜,发挥各个处理
本文对基于X.509标准公钥基础设施(PKIX)下的数字证书管理系统(Digital Certificate Management System,下文简称DCMS)的设计与实现进行了分析和讨论。DCMS系统的设计涉及数
面向对象技术在软件工程中的推广使用,使得传统的测试技术和方法受到了极大的冲击.传统的测试技术已经无法有效的测试面向对象程序,因此测试策略和测试方法都需要进行相应的
随着计算机处理器性能的提升和存储部件的容量增大,程序设计规模也越来越大,功能越来越复杂,程序出错也不可避免地越来越多。统计表明,程序出错的主要来源之一是错误的访存操作。
学位