基于BERT与知识校验的中文实体关系抽取

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:zmc02302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是指从自然语言文本中抽取形如(客体,关系,主体)的实体关系三元组,旨在使机器具备从海量文本中自动构建知识的能力;另一方面,预训练语言模型在很多自然语言处理任务上取得了很好的效果。本文工作结合深度双向转换器编码器表示(BERT:Bidirectional Encoder Representations from Transformers),提出了两种解决多关系多实体,中文模式(schema)约束的实体关系抽取的方法。首先本文提出了先关系后实体的层次抽取方案。这是一个两阶段流水线模型,在第一阶段,通过BERT编码器进行关系多标签分类任务;在第二阶段,使用上一阶段预测的关系标签作为先验信息与原始文本拼接输入BERT进行实体识别,采用序列标注方法预测实体标签实现三元组抽取,最后得到实体与关系的匹配三元组。同时借鉴多头选择的思想提出了基于多头选择的联合抽取方案,这是一个端到端的方法,联合实现关系抽取与实体抽取。模型使用BERT作为编码层,后接条件随机场(CRF:conditional random field)用于实体命名体识别任务,最后通过多头选择方法预测输入词序列每个词最有可能的对应头向量和对应关系标签。在SKE中文信息抽取数据集上,通过知识蒸馏和模型集成,上述两种方法在F1指标上对于基线模型有近10个百分点的提升。最后,文章创新性地提出了结合知识库先验信息的知识校验方法。一般的实体关系抽取只利用了目标语料本身的信息,却忽视了知识库中的大量先验信息,如知识库的局部拓扑结构,知识库实体关系的分布信息等。模型第一步借鉴远程监督思想,补充模型未预测出但存在于训练集的三元组;第二步,将筛选高质量三元组任务转换为三元组二分类任务,判断三元组为真的置信度。模型使用XGBoost作为分类器,构造了基于知识库实体关系条件分布SDValidate,基于知识嵌入Trans E三元组评分,深度模型三元组置信度得分,排名等多个特征,最终使模型在F1提升2到4个百分点。同时,采用SHAP值解释了模型的特征重要性。综上所述,本文提出了两种基于BERT预训练语言模型解决多关系多实体抽取任务,同时设计了知识校验模块用于三元组补充与筛选。通过对比实验验证了方法的有效性与普适性,可以运用于问答系统,推荐系统等多个领域中。
其他文献
目的 分泌性中耳炎是耳鼻喉科的常见疾病,且在儿童中多见。有研究表明腺样体肥大患儿较一般儿童更易罹患分泌性中耳炎,在临床实践中发现,并不是所有腺样体肥大患儿都会罹患分泌性中耳炎,腺样体肥大患儿分泌性中耳炎的发生往往与许多风险因素相关。通过本研究,可以提供具有预测价值的发病预测模型,预测哪些患儿更易发生分泌性中耳炎,为有风险罹患分泌性中耳炎的腺样体肥大患儿提供生活指导及健康宣教。同时也可以对伴有或者不
学位
心力衰竭(heart failure,HF)是由各种心脏结构和/或功能异常,导致静息和/或运动时心室内充盈压升高和/或心输出量不足的一组临床综合征。从全球范围内来看,总的心衰发病率仍在不断上升。目前引起心衰的首要病因是冠心病,尤其是急性心肌梗死(acute myocardial infarction,AMI)。过去十几年我国急性心肌梗死住院患者的人数显著增加,随着溶栓和急诊介入治疗手段的普及,AM
学位
近年来,伴随着欧债危机、英国脱欧、中美贸易战、新冠肺炎疫情、俄乌战争等全球性事件的爆发,全球范围内不确定性带来的冲击愈发频繁,国际环境日益复杂,不稳定性和不确定性显著增加,全球经济进入新的调整期。同时,鉴于中国制造业在全球价值链中的强势崛起,中美贸易摩擦变得不可避免,并呈现出明显的常态化、复杂化和长期化的趋势,这进一步加剧了中国面临的局部贸易不确定性。据国家统计局显示,我国中小企业的数量现在已经突
学位
本文从工程建设项目工期管理原则出发,对建设项目工期确定与进度分析方法进行了分析,并从工期成本优化的混合整数规划模型和工期成本优化的图论模型两个方面详细阐述了建设项目工期成本优化方法,并对工期延误与索赔进行了论述,期望通过这方面分析可以深化人们对工程建设项目工期管理认识。
期刊
研究背景20世纪80年代以来,美国、澳大利亚等多个发达国家在保持高的含百日咳成分疫苗接种率多年之后,又出现百日咳疫情回升,称为“百日咳再现”,其原因尚不完全明晰。近些年来,我国天津等地也出现百日咳报告发病率大幅回升的现象。山东省自1956年开始通过法定传染病报告系统进行百日咳病例报告,1978年将全细胞百白破疫苗(Diphtheria,Tetanus and Whole-cell Pertussi
学位
我国高烈度地震区分布范围十分广泛,震区内建筑结构极易发生倒塌破坏事故,对人民生命安全和经济社会稳健发展造成严重威胁。常规的抗震设计中通常采用增大梁柱截面尺寸等方法提高建筑结构刚度,然而此方法可能会导致更复杂的地震响应和更高的工程成本。近年来,消能减震技术通过设置阻尼器来耗散地震能量,成为控制结构损伤和地震响应的有效措施。其中,金属阻尼器具有加工简单、施工便捷和性能优越等优点,能够显著提高建筑结构的
学位
胰腺癌(Pancreatic cancer,PC)恶性程度高,早期诊断困难,预后极差。约80%-85%的患者在疾病晚期或者出现转移相关症状后才获得诊治。其中,绝大多数患者在诊断时已发生了肝转移,失去了手术切除的最佳时期。此外,超过60%的患者在肿瘤切除术后的两年内复发并伴有肝转移。可见肝转移在胰腺癌患者中很常见,并且与预后不良相关。但目前仍缺乏早期诊断胰腺癌肝转移的有效方法,现有的成像方法无法检测
学位
近年来火电单机容量持续增大,其配备的湿式冷却塔尺寸也不断增大。湿式冷却塔底部直径过大,外界空气较难到达塔中心,同时,侧风进一步恶化湿式冷却塔性能。填料区作为最重要的传热传质区域,其布置方式直接影响冷却塔冷却效率,如其与配水匹配不佳,将进一步恶化冷却性能。因此,本文开展了侧风下多片距填料布置和分区配水协同优化研究,以实现对侧风下湿式冷却塔的性能优化,具有较大的理论意义和工程应用价值。本文以1000
学位
本文系统归纳并分析了我国华南寒武纪早期澄江生物群的12种共生生态,包括“古宿虫-曳鳃动物”、“不明生物-曳鳃动物”、“原始管虫-其它动物”、“杯形虫-其它动物”、“长江海鞘-三叶虫”、“腕足动物-腕足动物”、“腕足动物-其它动物”、“多孔动物-藻类”、“火炬虫-其它动物”、“伊尔东类-其它动物”、“不明管虫-叶足动物”及“不明蠕虫-古虫动物”共生现象。对“古宿虫-曳鳃动物”共生现象展开系统研究,认
学位
近年来,我国PPP项目得到了长足发展。PPP模式以其可有效利用社会资产、弥补地方政府财政投入的不足、扩展项目资金来源渠道、减轻地方政府部门的财务压力等多种优点,得到了政府部门的广泛青睐。但由于PPP模式的自身特点、政策法规不健全、社会资本方和政府方对PPP模式理解不深入等原因,PPP模式又比一般项目面临着多种风险。此外,PPP项目大都为基础设施和公共服务设施,具有很大程度的公共性。如果PPP项目风
学位