【摘 要】
:
关系抽取作为信息抽取的子任务,旨在从非结构化文本中抽取出便于处理的结构化知识,对于自动问答、知识图谱构建等下游任务至关重要.该文在文档级的关系抽取语料上开展工作,包括但不局限于传统的句子级关系抽取.为了解决文档级关系抽取中长距离依赖问题,并且对特征贡献度加以区分,该文将图卷积模型和多头注意力机制相融合构建了图注意力卷积模型.该模型通过多头注意力机制为同指、句法等信息构建的拓扑图构建动态拓扑图,然后使用图卷积模型和动态图捕获实体间的全局和局部依赖信息.该文分别在DocRED语料和自主扩展的ACE 2005语
【机 构】
:
苏州大学计算机科学与技术学院,江苏苏州215006
论文部分内容阅读
关系抽取作为信息抽取的子任务,旨在从非结构化文本中抽取出便于处理的结构化知识,对于自动问答、知识图谱构建等下游任务至关重要.该文在文档级的关系抽取语料上开展工作,包括但不局限于传统的句子级关系抽取.为了解决文档级关系抽取中长距离依赖问题,并且对特征贡献度加以区分,该文将图卷积模型和多头注意力机制相融合构建了图注意力卷积模型.该模型通过多头注意力机制为同指、句法等信息构建的拓扑图构建动态拓扑图,然后使用图卷积模型和动态图捕获实体间的全局和局部依赖信息.该文分别在DocRED语料和自主扩展的ACE 2005语料上进行实验,与基准模型相比,基准模型上融入图注意力卷积的模型在两个数据集上的F1值分别提升了2.03% 和3.93%,实验结果表明了该方法的有效性.
其他文献
米曲霉是一种好气性真菌,在酒类、酱类及酱油等发酵制品中发挥着重要作用.它主要通过在食品发酵过程中分泌各种酶类降解大分子物质,增加食品中醇类、酚类、醛类和酯类等风味物质含量,从而提高了发酵制品的商品价值.随着基因组学和蛋白质组学等技术的兴起,关于米曲霉基因内部调控和相关蛋白表达情况有了更清晰的认识.文章对米曲霉功能基因组学、蛋白组学和在发酵制品中的应用等方面的研究进展进行了综述,为米曲霉在食品领域的进一步开发利用提供了理论参考.
道德词典资源建设是人工智能伦理计算的一个研究重点.由于道德行为复杂多样,现有的英文道德词典分类体系并不完善,而中文方面目前尚未有相关的词典资源,理论体系和构建方法仍待探究.针对以上问题,该文提出了面向人工智能伦理计算的中文道德词典构建任务,设计了四类标签和四种类型,得到包含25012个词的中文道德词典资源.实验结果表明,该词典资源不仅能够使机器学会道德知识、判断词的道德标签和类型,而且能够为句子级别的道德文本分析提供数据支持.
该文将汉语母语者的160份复述文本与其原文进行以小句为单位的逐句比对,发现其中出现了6484对复述句对.从其生成的方式来看,可以分为改换词语和重铸整句两大类.以语用学原理对这些复述句进行分析,发现与以往研究的复述现象不同的是:句对间往往不具有相同的逻辑语义真值,但在特定语境下却能传达同一个语用意义,具有等效的语用功能.这说明在自然语言处理中,识别进入真实交际中的复述句不仅依赖语法、语义知识库,还需要借助含有语用知识和语境信息的知识库.
2021年10月9日,第六届国际网络空间数据科学大会(IEEE DSC 2021)在深圳开幕.本次大会由IEEE、中国工程院、中国中文信息学会主办,鹏城实验室承办,信息系统安全技术重点实验室协办.会议为期三天,近300名网络空间数据科学领域的专家学者们通过线上与线下的形式参与会议.开幕式由大会联合主席、复旦大学教授王晓阳主持.
开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务.该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取方法;面向金融领域,探索了一套基于逻辑推理知识库的可解释性路径推理方法和金融实体影响生成系统.算法模型和系统均取得了不错的效果.
基于人工智能技术的人机对话系统在人机交互、智能助手、智能客服、问答咨询等多个领域应用日益广泛,这极大地促进了自然语言理解及生成、对话状态追踪和端到端的深度学习模型构建等相关理论与技术的发展,并成为目前工业界与学术界共同关注的研究热点之一.该文聚焦特定场景下的任务型对话系统,在对其基本概念进行形式化定义的基础上,围绕着以最少的对话轮次来获得最佳用户需求相匹配的对话内容为目标,针对目前存在的复杂业务场景下基于自然语言的用户意图的准确理解和识别、针对训练数据的标注依赖及模型结果的可解释性不足,以及多模态条件下对
T ransC是一种高效的知识图谱嵌入方法,通过区分概念和实例来建立概念、实例及关系的嵌入.T ransC将概念编码为球体,球体半径被随机初始化并在训练中迭代更新.由此导致模型出现两个问题:一是训练得到的部分球体半径与模型训练目标不符;二是忽略了概念本身提供的语义信息.针对上述两个问题,该文提出了T ransIC模型,首先,基于IC参数给出新的概念球体半径求解方法,使求得的半径满足T ransC目标,并且丰富了概念嵌入向量的语义信息.其次,该模型以T ransC为基础,在概念编码阶段引入基于IC参数的概念
根据回转盘铸铁件的结构特征,通过数值模拟分析及优化,确定了分型面选于铸件的大平面处;浇铸位置选择大平面朝上,精度要求较高的燕尾导滑面朝下;内浇道设置于铸件长度方向一端的侧面底部和顶部表面处,采用阶梯浇注并结合倾斜浇注的方式进行浇注;在倾斜浇铸位置的最高处侧面设置明冒口,以利于集渣和出气;在大平面顶部较厚部位热节处设置冷铁以保证此处结晶质量;在主型芯里埋填管状芯骨利于排气和搬运的铸造工艺.生产表明本铸造工艺既保证了底部燕尾导滑面和顶部大平面的组织质量要求,大大地减小了后期加工工作量,还使造型简单,具有较高的
双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用.由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大.该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型.首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率.其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特
话题的延续和转换是篇章中重要的语用功能.该文从句首话题共享的角度对话题延续和转换进行了分类,分为句首话题延续、句中子话题延续、完全话题转换、兼语话题转换、新支话题转换五种,进而对话题转换的特殊情况——新支话题展开研究.基于33万字的广义话题结构语料库,该文对新支话题的句法成分、语义角色进行了统计和分析.通过句法成分分析发现,宾语从句或补语从句主语、主谓谓语句小主语、状性成分起始句主语、句末宾语、连谓句非句末宾语、兼语句兼语、介词宾语甚至状语等都能成为新支话题,从而引出新支句,其中,句末宾语作为新支话题的情