基于词粒度知识迁移的依存句法分析研究

来源 :哈尔滨工业大学 | 被引量 : 1次 | 上传用户:danhun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理的发展,依存句法分析作为一个重要的基础任务一直备受关注。依存句法分析旨在获取句子中词语之间的修饰关系,为机器翻译、信息抽取、问答等下游自然语言处理任务提供丰富的句法指导,其准确率严重影响下游任务的性能。基于统计和基于神经网络的依存句法分析器依赖于大量的已标注数据,否则容易出现过拟合问题,导致依存句法分析在低资源领域的性能较低。标注依存句法数据需要丰富的语言学知识,是一个耗时耗力的工作。因此,如何将自然标注数据以及现有的已标注数据有效地迁移到低资源领域成为非常有价值的研究问题。在句法数据迁移的过程中,存在一些障碍,比如句法知识形态不同、领域之间词汇差异较大等,影响了迁移性能。本文提出通过四种不同的词粒度知识,构建不同数据之间信息交互的桥梁,提高句法数据的迁移性能。具体包括利用词共现将查询日志中蕴含的句法知识迁移到无监督依存句法分析中,利用句法类、领域一致的词表示以及词的领域属性来跨越领域之间的词汇鸿沟,从而更好地迁移句法结构。1.基于词共现知识的无监督依存句法分析。近年来,无监督依存句法分析因其不需要昂贵的已标注树库越来越流行,但准确率仍然离实际应用有较大的距离,部分原因是模型并没有充分捕获各类语言现象,且存在严重的知识匮乏问题。从无标记文本中挖掘句法知识并注入无监督依存句法分析模型中可提高其性能,且无人工成本。本文提出利用词共现从查询日志中挖掘句法知识,通过打分函数衡量词语之间的依存关系,并用于辅助估计基于配价依存句法模型DMV中的选择概率,构建了查询知识增强的配价模型QA-DMV。该方法不限语言种类,实验证明加入查询日志中蕴含的句法知识后,中英文数据上的无监督依存分析性能均有大幅度提升。并验证了查询日志的规模越大,对无监督依存模型性能的提升幅度越大。2.基于句法类的依存句法分析。一些领域树库的多样性和规模,对有监督依存句法分析来说都是不充足的,导致生物医学等低资源领域文本依存句法分析存在数据稀疏问题。离散符号的形式的特征表示,在基于统计的机器学习中比较常见,是解决数据稀疏的关键技术。本文提出依据依存上下文学习的词嵌入,对词进行聚类,具有相似句法角色的词归到同一类。本文将句法类以特征的方式应用到基于统计的依存句法分析中,并将基于依存上下文的词表示直接作为基于神经网络依存句法分析系统的输入。实验证明了句法类可以捕获句法相似性,并且可与布朗聚类一起使用,进一步缓解数据稀疏问题;另外,实验证明了将根据依存上下文获取的词表示应用在基于深度神经网络的依存句法分析中,比基于一般上下文的词表示的迁移性能好。3.利用领域一致的词表示提高依存句法分析的领域迁移性能。将资源丰富领域的依存数据迁移到资源匮乏的领域,主流的方法是获取领域之间共享的特征集合。对于基于深度神经网络的模型,词嵌入是一种基础的初始特征,简单有效,但很少相关工作探索领域一致的词嵌入。预训练的词嵌入往往在广泛的领域上进行训练,对于特定领域之间的迁移,效果不是很好。因此,本文提出对预训练的词嵌入,利用将要迁移的源和目标领域数据,进行对抗性调优,从而获取针对当前领域一致的词嵌入,促进两个领域数据之间的信息交互。新闻领域和生物领域数据之间的迁移实验,证明了领域一致的词表示减轻了源领域和目标领域数据之间的词汇差异,可提高依存句法分析的领域迁移性能。4.基于词汇领域属性的部分去词汇化依存句法分析。经过分析大量的数据发现,不同的领域之间存在较大的词汇鸿沟,尤其是在名词、形容词上更明显,导致难以充分迁移句法数据。本文提出利用生成式对抗网络识别语境化的词汇领域属性,为句子生成掩码序列,并提出隐式和显式两种应用方法。隐式即保留领域通用词,并将原始词的向量表示与[MASK]词向量进行拼接,构成领域特有词的表示。显式应用是对领域特有词根据不同策略进行词替换,作为增广数据进行应用。实验证明这两种方法均有利于提高新闻到生物数据的迁移性能。
其他文献
用高分辨质谱检出了墨水碳黑有机溶剂提取物中的六种硝基取代多环芳烃化合物,高效液相色谱的保留时间和紫外光谱确证了提取物中的二硝基芘和3-硝基芴酮,根据定量测定结果表明
<正> 世界范围内燃煤而释放的二氧化硫气体和颗粒物,严重地扰动了硫的全球环境地球化学循环,是导致全球性大气污染和酸沉降的重要原因.为定量地评估人为活动释放硫和天然生物
机械制造业是为各行业提供技术设备的战略性产业,产业关联度高,吸纳就业能力强,技术资金密集。充分利用新余钢铁等产业的资源和规模优势,延伸产业链,加快发展机械制造业,是新余积极
《政府参事工作条例》2010年1月1日正式施行前夕,去年12月28日上午,省政府举行学习贯彻M《政府参事工作条例》座谈会,听取在昌的省政府参事、省文史馆员以及部分设区市政府参事
目的:观察中西医结合治疗脑出血后慢性脑积水的临床疗效。方法:选取脑出血后慢性脑积水患者40例,将其随机分为治疗组20例与对照组20例。两组患者除常规控制血压、调血糖、降血脂
对精准农业进行了综合评述,介绍了精准农业的技术体系,包括全球卫星定位系统GPS,地理信息系统GIS,传感器及监测系统,智能化农业机械,分析了实施精准农业技术的工艺流程及精准农业的技术思
各市、县(区)人民政府,省政府各部门:为加快清理化解农村义务教育“普九”债务试点实施的步伐,进一步促进农村社会和谐稳定和农村义务教育健康发展,现将《江西省清理化解农村义务教
各市、县(区)人民政府,省政府各部门:现将《国务院关于开展第六次全国人口普查的通知》(国发[2009]23号)转发给你们,并结合我省实际,提出如下贯彻意见,请一并贯彻执行。一、统一思想,提
目的 分析急性脑梗死与高敏C反应蛋白水平及颈动脉斑块性质的相关性.方法 选取我院在2012年12月-2014年12月期间收治的105例急性脑梗死患者为研究对象,并将其作为研究组,同期