Improving Relation Extraction with Relation-Based Gated Convolutional Selector

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户:baoze65833
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Distant supervision is an effective way to collect large-scale training data for relation extraction.To better solve the wrong labeling problem accompanied by distant supervision,some methods have been proposed to remove noise sentences directly.However,these methods seldom consider the relation label when removing noise sentences,neglecting the fact that a sentence is regarded as noise because the relation it expresses is inconsistent with the relation label.In this paper,we propose a novel method to improve the performance of bag-level relation extractor via removing noise data with a relation-based sentence selector.Specifically,the relation-based gated convolutional unit of the sentence selector can selectively output features related to the given relation,and these features will be used to judge whether a sentence expresses the given relation.The sentence selector is trained with the data automatically labeled by the relation extractor,and the relation extractor improves its performance with the high-quality data selected by the sentence selector.These two modules are trained alternately,and both of them have achieved better performance.Experimental results show that our model significantly improves the performance of the relation extractor and outperforms competitive baseline methods.
其他文献
神经机器翻译(NMT)模型通常具有庞大的参数量,例如Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化且存储模型的资源需求也越高.本文提出了一种压缩方法用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型.本文提出半知识蒸馏方法和递进式半知识蒸馏方法,其中半知识蒸馏是从参数多、性能好的教师模型中获取半部分的权重作为精简、参数少的学生模型训练的起点;递
本文讨论了基于Word2vec和长短期记忆(LSTM)网络的维吾尔短文本分类技术.使用基于词-词素平行语料的稳健词素切分和词干提取方法,从噪声文本中提取词干后分别建立词和词干集合,并通过word2vec工具映射到实数向量空间.然后采用LSTM网络作为特征选择和文本分类算法进行维吾尔短文本分类实验.结果显示,在基于词干向量的分类实验中得到95.48%的分类准确度.从实验结果看,对于派生类语言而言,特
在主题深度表示学习的基础上,本文提出了一种融合双语词嵌入的主题对齐模型(Topic Alignment Model,TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了两种新的指标,即双语主题相似度(Bilingual Topic Similarity,BTS)和双语对齐相似度(Bilin
本研究运用事件相关电位技术,观测汉语谐音双关语与语义双关语两者是否存在认知神经加工上的差异.结果发现,语义双关语的正确率明显低于谐音双关语以及不符合逻辑语篇的正确率.谐音双关语组、语义双关语组和不合逻辑语篇引发的脑电波数据在300-900ms之间存在显著差异.其中,谐音双关语和不合逻辑语篇都引发了N400效应.脑电波形图和脑电波地形图显示,前者引发的N400效应略微晚于后者引发的N400效应,但数
构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一.症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊,医学问答等任务的重要因素.本文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库.该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8772种症状共计146631条属
针对当前医学语料库涵盖实体分类以及实体关系难以满足精准医学发展需求的问题,本文从儿科疾病入手,参考现有的医学命名实体和实体关系标注体系,在医学领域专家的指导下,制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;利用自行开发的标注工具,在采用机器学习进行预标注实体及实体关系后;以标注规范为指导,进行多轮人工标注,完成了298余万字的儿科医学文本中的实体及关系进行标注,形成了面向儿科疾病的
多模机器翻译近年来成为研究热点之一.已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果,已有工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用.基于此,本文提出一种融合图像注意力的多模机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注
语言知识驱动计算机正确地处理自然语言,介词结构知识对自然语言处理和语言教学研究有很重要的意义.本文基于大规模语料库构建了高质量的介词结构搭配库.首先在前人研究的基础上对介词进行归类并建立了介词搭配知识体系,而后设计并实现了从大数据中获取介词结构搭配知识的规则,最后对抽取结果及其数据规模进行了统计和评估.主要目的是通过形式手段获取高质量的介词结构搭配,同时也为自然语言处理和语言学基础及应用研究提供数
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况.先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨.该文应用基于语言知识库上的伪语料法,通过控制注入语义特征,并对得到的词向量进行分析后取得了一些存在性的基础性结论:语义特征可
Hashtag recommendation aims to recommend hashtags when social media users show the intention to insert a hashtag by typing in the hashtag symbol “#” while writing a microblog.Previous methods usually