自然语言句子级结构表示的建模与学习

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pc167
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表示学习方法可以为自然语言处理任务学习低维的平滑特征表示,从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来,服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。然而已有方法往往局限于对于特定类型结构的表示,而且只能使用受限的语言学标注信息从而描述能力有限。受到以上现状的启发,本文考虑通过结合语言学知识和无监督的表示学习方法,从而更好地建立自然语言的结构表示。为了实现这一目标,本文提出了一种新的结构表示模型,并为该模型的训练过程提出了新的方法。同时本文对于结构表示在自然语言处理中的应用进行了新的探索。本文研究的核心在于表示自然语言结构各关键信息之间的合取。第一,为了说明合取思想的重要性,本文首先从最简单的n元词组表示的构造方法及应用开始,基于n元词组本身是其各组成词之间的合取这一事实,展示了词表示的合取对于构建n元词组表示的重要性。传统的基于词嵌入的n元词组表示方法通过对词嵌入向量进行拼接来表示n元词组,然而正如本文的的分析所示,这样的方法不能反映n元词组各组成词之间的合取信息。本文则通过对词嵌入进行聚类,并对离散的聚类进行合取对n元词组进行表示。这一方法相比词嵌入拼接得到了更好的实验结果,从而证明了合取信息的重要性。本文进一步在训练样本的去噪问题中展示了上述n元词组表示的有效性。第二,本文提出了一个通用的结构表示模型。对于任意的输入结构,只要我们可以将其表示为以词为节点的图,该模型便可为其构造结构表示。本文的这一模型首先将输入结构分解为子结构,每个子结构包含了一些词节点(表示为词嵌入),和一些带有结构信息属性的边(表示为语言学特征)。本文的模型通过对上述两种信息对应的向量求外积来获得它们的合取信息,从而得到每个子结构的表示。我们对所有子结构表示求和,得到原始输入结构的表示。在上述结构表示的基础上,本文的模型通过一个参数张量获得目标任务的输出。这一模型被称为基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model,FCM)。本文主要关注该模型在句子级别结构的表示任务上的应用,并证明该模型在多个关系抽取任务上都获得了业界领先的结果。第三,上面的FCM模型当子结构包含词节点较多,或者当张量的某个输入视角维度较高时,会因为模型的参数过多而易于过拟合。本文通过张量低秩近似的方法,对FCM进行了近似,得到一种称为低秩FCM的新模型(Low-Rank FCM,LRFCM)。这一近似的结果是每一个视角上的输入都被映射到更低维的向量,减小了模型的参数空间。同时,通过张量的CP模式近似,我们将原本耗时的张量乘法近似为上述低维向量之间的点积。上述改进有效地减小了FCM的参数空间并提升了模型的运行速度,并在多个任务上取得了实验结果的提升。第四,本文提出了一种基于有标记数据和无标记数据的联合训练方法,用于对上述模型进行更充分的训练。相比传统的流水线式半监督训练方法,本文提出的方法有利于更充分地训练未被有标记数据覆盖的词的词嵌入。为了利用无标记数据,本文提出了一种基于语言模型思想的方法,使用一个结构的表示预测该结构的上下文词。最后,本文以短语嵌入的学习为例,展示了本文所提出的通用表示模型(及其低秩近似)以及联合训练方法的重要作用。上述方法在多个短语相似度任务上都取得了较大的提升。本文提出的方法在包括关系抽取、短语相似度、序列标注和跨语言映射等多个任务上都取得了业界领先的结果。同时本文所提出的基于合取的表示建模思想也为未来的表示学习的研究提供了新的方法和视角。
其他文献
中国的艺术院校当中,图案的教学也在发生变化,在具体的教学实践中,就“点”“线”“面”作为基本元素在基础图案教学中作用重大,本文就这基本图案造型语言进行一个梳理,再次强调其
2月20日“加码楼市调控的会议”,极可能是温总理主持的“最后一次”的国务院常务会议,对曾经十分关注股市的温总理而言,或许也算是带给市场的一份“纪念”:帮助A股酣畅淋漓的完成“技术调整”,让望眼欲穿的“二次上车”机会得以实现。  第一,温总理主持的国务院再次施压楼市,确实是让自新决策层履新后以推动“城镇化”为代表的,“突出做加法”的宏观政策蜜月期“告一段落”,市场失去了其第一阶段“强势反弹”的政策基
期刊
消费扶贫的本质是破除贫困地区产品和服务的产销壁垒,鼓励社会各界在能力范围内将消费需求向贫困人口倾斜。日益发达的互联网技术,在贫困人口与消费扶贫的其他多主体之间架起
滨州经过长期发展,特别是改革开放以后30多年的发展,目前已经形成了比较完整的产业体系,而且特色比较明显。滨州的产业,通过发挥当地的资源优势、技术优势和劳动力优势,在市
12月17日,由中国科协主办、新华网承办的"典赞·2019科普中国"揭晓盛典在京举行。活动现场揭晓2019年十大科学传播事件、十大"科学"流言终结榜、十大科普自媒体、十大网
针对微震监测系统中煤岩破裂微震信号与爆破震动信号难以辨识的问题,提出了基于变分模态分解的微震信号特征提取及分类辨识方法。首先,采用VMD将原始信号分解为一系列按频率
目前中国虽然已经成为世界上最大的手机市场,但是这个市场的主要消费者能够消费得起的手机还是在2000元左右,也就是中国仍是一个很平民化的市场,而彩信手机距离这个可接受价
滨州市旅游资源丰富,但未得到很好的开发。综合分析滨州旅游资源类型与空间结构特征,从政府推动、市场导向、优势互补三方面系统探讨滨州县区旅游资源整合开发模式,以共拓市
两会中提到货币战争已经是不争的事实,但中国对此已经做好了准备,同时银行股和资本市场也启动了,因此无需惧怕IPO。IPO是市场必须的,无法回避的,如果这个能决定牛熊,美国的股市估计也要跌到2000点。  最近的急涨急跌把投资者搞的更加战战兢兢,关注的焦点还是始终围绕IPO,似乎IPO目前就是A股的紧箍咒,一念就灵,这点非常像2005年,每年的牛熊转换最常念的就是这个,所以说也是个老生常谈的问题。究其
期刊
<正>有效的课堂教学必须是重点突出的,但重点突出不等于不拘小节,也需关注小节.有效的课堂教学必须是主体突出的,突出主体不是空洞的,需要抓住探究细节实现意义建构.