【摘 要】
:
语义角色标注(Semantic Role Labeling,SRL),又称为浅层语义分析,其目标是识别句子的谓语论元结构,包括句子中的所有谓词,以及谓词相关的论元。首先,为了解决多领域SRL数据集匮乏的问题,本文人工标注了一个较大规模的多来源多领域汉语SRL数据集,进而开展了跨领域SRL方法探索。考虑到语义和句法的紧密联系,本文的另一个重点是如何在跨领域SRL模型中有效地使用句法信息。本文尝试了两
论文部分内容阅读
语义角色标注(Semantic Role Labeling,SRL),又称为浅层语义分析,其目标是识别句子的谓语论元结构,包括句子中的所有谓词,以及谓词相关的论元。首先,为了解决多领域SRL数据集匮乏的问题,本文人工标注了一个较大规模的多来源多领域汉语SRL数据集,进而开展了跨领域SRL方法探索。考虑到语义和句法的紧密联系,本文的另一个重点是如何在跨领域SRL模型中有效地使用句法信息。本文尝试了两种句法驱动汉语SRL方法,一种是主流的基于图卷积神经网络(Graph Convolutional Networks,GCN)编码句法树的句法驱动方法;另一种是基于树编辑的句法驱动方法,本文首次提出对自动句法树进行特定编辑,使得原本通用的句法信息更适配于SRL任务。最终,本文利用这两种句法驱动方法帮助跨领域汉语SRL任务,从而提升跨领域汉语SRL模型的性能,缓解SRL领域迁移问题。本文的主要内容如下:(1)跨领域汉语SRL数据集构建考虑到多领域SRL数据集的匮乏,本文初步构建了一个多来源多领域的汉语SRL数据集。首先,本文编制了详细的标注规范,面向多源多领域的文本,采用严格双人标注和专家审核不一致的方式,构建了包含6个领域、3.1万句子、9.2万谓词的多领域汉语谓词论元数据集(multi-domain Chinese predicate-argument dataset,MuCPAD)。进而,本文对MuCPAD数据集进行了统计和分析,分析标注语料的质量,并阐述不同领域语料的特点。(2)基于GCN编码的句法驱动跨领域汉语SRL本文尝试和比较了多种编码方式,使用图卷积神经网络GCN来刻画多个异构句法树中包含的句法信息,包括句法结构和标签信息,进而将异构句法信息编码为句法特征表示引入到SRL模型,最终提升汉语SRL模型的性能。进而,在MuCPAD上,本文探究了基于GCN编码的句法驱动方法在跨领域SRL场景上的表现。实验结果显示,通过GCN编码句法树融入句法信息,在绝大部分有领域上都能够取得显著的性能提升,尤其当句法训练数据中包含某一目标领域文本时,该领域上的SRL性能提升幅度会明显增大。(3)基于树编辑的句法驱动跨领域汉语SRL之前的句法驱动相关工作,通常都是直接使用句法分析器产生的自动句法树。然而,通用的句法结构很可能无法对特定任务提供最有效的支持。因此,本文尝试了两种基于树编辑的句法驱动语义分析方法,通过对自动句法树或句法路径进行特定编辑操作,得到更适配于SRL任务的句法信息。第一种树编辑方法是在保证树的合法性的前提下,以句法弧为单位进行编辑。实验证明,相比原始句法树,编辑后的句法树只能略微提升SRL性能。第二种树编辑方法则首先抽取谓词和候选论元之间的句法路径信息,包括路径上弧的方向和标签,进而对句法路径信息进行编辑。实验表明,第二种方法能够明显提升基于路径嵌入方法的句法驱动SRL模型,并且与其他基于GCN编码的句法驱动方法相比,性能非常接近。最后,本文在MuCPAD上验证了基于树编辑的句法驱动跨领域SRL方法的有效性。相比基线模型,所有目标领域性能平均提升了 10%左右。综上所述,本文对句法驱动的跨领域汉语SRL任务进行了初步探索。为了开展跨领域汉语SRL实验,本文人工标注了高质量多领域汉语SRL数据集。然后,重点研究了如何在SRL模型中更有效地使用句法信息,并将句法驱动方法应用于跨领域汉语SRL场景中,显著提升了跨领域汉语SRL模型的性能。希望本文的工作能对跨领域汉语SRL任务未来研究带来一定的帮助。
其他文献
中文篇章分析作为自然语言处理领域中一项基础任务,旨在将中文篇章平文本以树形结构表示,称作中文篇章修辞树结构。篇章修辞树有助于从整体上把握篇章行文脉络并提供结构化信息,对下游篇章级别的文本分类、文本摘要、情感分析和机器翻译等任务具有基础支撑的作用。随着汉语连接依存树结构语料(CDTB)的发布,基于中文的篇章分析研究得以开展。近年来,深度学习技术在自然语言处理领域中多项任务上取得显著成效,因此在篇章分
离心泵是石油化工生产中的重要设备,而对于高温油泵来说,密封性能的好坏直接影响到整个工厂的安全生产,大部分离心泵采用的是机械密封,在石油化工企业中输送的介质大多数具有腐蚀性、易燃易爆性及毒性,一旦高温油泵机械密封失效会引起火灾、中毒等涉及人身伤亡的重大事故,因此,机械密封泄漏原因与解决措施的研究就尤为重要。本文以常减压装置的常压渣油泵为研究对象,从腐蚀、机械磨损、力的作用方式以及变形等方面对机械密封
搅拌摩擦焊(Friction stir welding,FSW)技术中焊接质量与成本都是关注的焦点,一方面搅拌头的工作寿命对焊接成本和焊接质量有影响,另一方面焊缝内部温度场会影响最终焊接质量,所以搅拌头寿命及焊缝内部温度的测量都十分重要。大量研究工作表明,FSW焊接过程中热量主要来源于搅拌头与工件的摩擦,因而搅拌头与工件的接触界面温度测量尤为重要。基于上述,本文设计了用于FSW的高寿命测温搅拌头,
氨基酸变异的耐受性,指的是蛋白质对其位点上发生的氨基酸变异的容忍程度。耐受性高的变异通常对蛋白质功能没有影响,也被简称为中性。相反,耐受性低的变异大概率有害,其中发生在人类蛋白质上的低耐受性变异常被称为致病变异。用计算方法预测变异耐受性比实验方法预测速度快、成本低。已报道的研究方法仅集中于对人类物种中发生的氨基酸变异的致病性进行预测,尚缺乏对多物种氨基酸变异耐受性预测的模型。本文拟采集多物种氨基酸
随着移动互联网的快速发展,网络中的数据量正在以指数级别快速增长,信息过载问题则随之出现,该问题导致用户很难从互联网海量的产品或服务中找到自己真正感兴趣的。为了提升用户的体验以及企业的经济效益,推荐系统应运而生。一个有效推荐系统的核心是能根据用户历史交互准确建模用户偏好,并根据用户偏好来个性化地向用户推荐物品。现代推荐系统虽然蓬勃发展,但始终受数据稀疏和冷启动问题影响。作为图神经网络的一种,超图神经
视觉对话是一种跨模态数据交互任务,该任务是基于一幅给定的图像以及多轮对话历史让AI agent(代理)回答给定的问题,形成一段围绕图像内容展开的连续对话。本文针对现有方法因未关注到不同模态之间的交互信息而无法完成跨模态指代消解问题,分别从视觉和文本角度进行跨模态指代消解,同时提出新的表征机制将不同模态提取的特征进行更好地融合学习。主要研究内容如下:(1)针对视觉与文本模态缺乏交互性而导致的视觉目标
随着智能手机的普及以及移动互联网的发展,空间众包成为了共享经济时代下传统众包发展的新方向。空间众包的核心操作是任务分配,即将具有时空特征的任务分配给空闲的工人。多个空间众包平台的存在使得合作成为可能,各平台以共享任务与工人的方式进行合作,帮助其他平台完成原本难以完成的任务,从而实现更优的任务分配以及总收益的扩大。此外,空间众包平台也能利用大数据来驱动更智能的任务分配,基于联邦学习技术共享各自的数据
知识图谱问答以结构化的知识图谱作为答案来源回答用户提出的自然语言问题。在已有的知识图谱问答方法中,基于查询图的方法广受关注。基于查询图的知识图谱问答方法包含查询图生成和查询图选择两个主要模块。其中,查询图生成实现问句的语义解析,将问句转换为一组候选查询图;而查询图选择是从候选查询图集合中选出最优查询图,并从知识图谱中检索答案。尽管基于查询图的知识图谱问答方法取得了一定的进展,但其在复杂问句的语义解
“双减”政策强调学校要满足学生多样化的学习需求,制定丰富的课后服务实施方案。作为初中物理教师需要在课后服务中积极开展科普活动、科学社团课。义务教育物理课程标准指出,有效地开发和利用课程资源是切实提高物理教学质量的有效手段。所以在设计新授课、延时服务课时,如何筛选、开发、应用课程资源以加深学生对基础知识的理解、激发学生科学兴趣、拓展科学视野,成为一线物理教师必须解决的问题。国家为提高国民科学素质,除
元学习作为近年来机器学习领域提出的一种新范式,旨在从多个任务中学习经验,从而更快更好地适应于新任务。作为元学习的重要应用场景,小样本学习旨在研究样本稀少情况下学习算法的泛化性问题。目前,研究者们已提出众多有效的元学习算法,使得小样本分类任务的准确性得到提升。然而,我们发现这些算法仍然存在待解决的问题,比如样本数据的复杂性、噪声数据或模型假设所引起的不确定性问题,阻碍了现有模型的进一步提升。针对上述