融合上下文的残差门卷积实体抽取

来源 :北京大学学报(自然科学版) | 被引量 : 0次 | 上传用户:c13140608886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于传统卷积框架的实体抽取方法,由于受到卷积感受野大小的控制,当前词与上下文的关联程度有限,对实体词在整个句子中的语义欠考虑,识别效果不佳.针对这一问题,提出一种基于残差门卷积的实体识别方法,利用膨胀卷积和带残差的门控线性单元,从多个时序维度同步考虑词间的语义关联,借助门控单元调整流向下一层神经元的信息量,缓解跨层传播的梯度消失问题,同时结合注意力机制捕捉词间的相关语义.在公开命名实体识别数据集和专业领域数据集上运行结果表明,与传统的实体抽取框架相比,基于残差门卷积命名实体算法的速度和精度都有较强的竞争优势,体现出算法的优越性和强鲁棒性.
其他文献
在前期基于图网络的模型基础上,引入角色指代信息,提出融合角色指代的多方对话关系抽取模型.在构建图节点时加入角色节点,将其与对应角色指代的词节点进行连接,并使用图注意力网络进行编码.在DialogRE数据集上的实验效果与基线模型相比,F1值在验证集上提升2.9%,在测试集上提升4.6%.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平行语料资源丰富的翻译任务,引入XLM-R可以很好地对源语言句子进行编码,从而提高翻译质量;对双语平行语料资源匮乏的翻译任务,引入XLM-R不仅可以很好地对源语言句子进行编码,还可以对源语言端
柯萨奇病毒A9型(Coxsackievirus A9,CVA9)是常见的人类肠道病毒血清型,其感染可引起无菌性脑膜炎、脑炎等疾病.为探索其进化遗传学特征,本研究对山东省1991-2018年CVA9分离株的VP1完整编码区进行了序列测定,并与GenBank中获得的全球序列一并进行系统发生学和进化遗传学分析.结果 显示全球CVA9可分为Ⅰ-Ⅻ 12个基因型,优势基因型为Ⅶ,包括山东株在内的所有中国分离株均属于该基因型.进化遗传学研究显示,CVA9 VP1区序列的每年每个碱基的平均进化速率约为6.25×10-3
高危型人乳头瘤病毒(Human papillomavirus,HPV)持续感染可导致癌前病变,以HPV-16/HPV-18型感染最为常见,但HPV感染所产生的中和抗体(Neutralizing Antibody,nAb)对宫颈癌及癌前病变的相关关系尚不明确.本研究旨在探索HPV-16/HPV-18在不同的中和抗体与DNA感染状态下的年龄分布及其和宫颈组织学病变的相关性.通过横断面研究,本研究于2012年11月至2013年4月招募7372名18~45岁健康女性.收集每个受试者血清用假病毒中和抗体定性检测HP
人类免疫缺陷病毒(Human immunodeficiency viru,HIV)包膜糖蛋白gp120具有神经毒性,可引起神经元损伤,与HIV相关性痴呆的发生有关,但gp120引起神经元损伤的机制尚不清楚.有研究报道gp120能够引起神经元出现线粒体功能障碍,而PGC-1α是促进神经元内线粒体生成的关键基因.因此,本研究将分析PGC-1α基因在HIV-1包膜糖蛋白gp120诱导神经元线粒体功能障碍中的作用及机制.原代培养皮层神经元细胞后分为对照组、gp120组、空白质粒组、gp120+空白质粒组,gp12
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器翻译模型,通过融合小句对齐知识,增强模型学习复杂句内小句间语义结构关系的能力.在WMT17,WMT18和WMT19汉英翻译任务中的实验表明,所提出的方法可以有效地提升神经机器翻译的性能.进一
提出一种融合元路径信息的图神经网络模型,用于预测药物-靶标相互作用(GMDTI).首先根据8个数据集中的药物、靶标、疾病和副作用数据以及它们之间的8种作用关系,构建药物-靶标异质信息网络(HIN);然后定义两条元路径来捕获药物-靶标HIN中的不同子结构信息和不同节点间隐藏的语义信息,并应用图神经网络的方法聚合节点的一阶邻居信息和元路径中节点间的语义信息;最后利用端到端的学习方法完成DTIs预测.该方法同时考虑药物-靶标HIN的结构特性和元路径语义信息,有助于学习到更多潜在的药物-靶标作用关系.实验结果表明
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合嵌入的文本分类模型HONLSTM-BERT,利用类别标签之间的层次化结构关系进行自顶向下的层次化文本分类.最后,通过实验与当前流行的文本分类模型进行对比分析,结果表明HONLSTM-BERT
高危型人乳头瘤病毒(High-risk human papillomavirus,HPV)感染是宫颈癌发病的重要因素,但高危型HPV感染引起宫颈上皮恶变的机制尚不清楚.微小RNA (micro RNA,miR)-362-3p是具有抑癌活性的miR,在宫颈癌中表达降低;Nemo样激酶(Nemo-like kinase,NLK)是生物信息学预测得到的miR-362-3p靶基因,在宫颈癌中表达增加.但宫颈癌发病过程中高危型HPV感染与miR-362-3p、NLK的关系尚不清楚.本研究检测了miR-362-3p、
基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法.该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型.9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文本语义匹配模型.