基于改进ProtoNet的小样本关系抽取方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:CID102626720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的发展,快速有效地从互联网大量非结构化数据当中提取实用信息的需求日益增加,关系抽取作为一项重要的信息抽取任务,成为自然语言处理领域的研究热点。传统关系抽取方法,存在长尾关系数据量不足的问题,随之研究人员提出小样本学习(Few-Shot Learning,FSL)方法摆脱了对数据规模的依赖,但现有的小样本关系抽取模型存在距离度量参考无关特征和容易受噪声影响的缺点。因此,本文在原型网络(Prototypical Networks,ProtoNet)中采用土方移动距离(Earth Mover’s Distance,EMD)改善了距离度量问题,并在改进的模型中引入噪声检测处理模块,获得了较高准确率。具体工作如下:(1)针对ProtoNet模型中查询样本与类原型之间距离度量方法受无关特征影响较大的缺点,提出了基于EMD的小样本关系抽取模型(Earth Mover’s Distance with Prototypical Networks,EMD_ProtoNet)。采用土方移动距离代替ProtoNet模型中的欧几里得距离,在EMD_ProtoNet模型中,首先进行样本嵌入得到样本向量表示,计算各个关系类别的类原型,接着采用EMD计算查询样本嵌入与类原型之间的距离,确定查询样本与类原型的相关性,再根据相关性进行关系抽取。为了使EMD更多地关注具有较大区别性的特征,使用一种交叉参照机制生成EMD公式中节点的重要性权重,以便重要特征能被充分利用。将EMD_ProtoNet在Few Rel1.0数据集上进行实验验证,结果表明,在不同小样本设定下EMD_ProtoNet的关系抽取准确率比基线模型ProtoNet高2.17%-5.27%。(2)针对小样本学习受噪声影响较大的缺点,在EMD_ProtoNet模型基础上,提出了引入噪声检测处理模块的小样本关系抽取模型(Noise Detection and Processing Module with EMD_ProtoNet,NEMD_ProtoNet)。噪声检测处理模块由支持集样本自参照机制和样本注意力机制共同实现。支持集样本自参照机制计算各关系中支持集的每个样本与本关系所有支持集样本的平均距离,将平均距离最大的样本判定为噪声样本;样本注意力机制为样本分配权重值,赋予噪声样本低权重。最终,为关系类别计算加权平均得到类原型,减小噪声样本引起的类原型偏差。将NEMD_ProtoNe在Few Rel1.0数据集上进行实验验证,结果表明,在不同小样本设定下NEMD_ProtoNet相较EMD_ProtoNet准确率提高0.7%-3.46%。
其他文献
临沂地区是山东省“南茶北引”最早试种区之一,目前也是山东省主要产茶区之一,为北方茶业发展做出了巨大贡献。为使临沂市茶产业更好地适应国内外茶产业快速发展形势,本文作者从面积产量、产业化水平、茶类、育苗育种、科技推广、品牌打造、产业链延伸等方面入手,综合现状分析、经验做法,查找产业发展瓶颈,并从技术推广、人才培训、科技创新、品牌引领、产业链延伸等5个方面提出发展措施和建议,促进茶产业发展。
期刊
仲丁醇是重要的工业原料,目前常用正丁烯直接水合法、正丁烯间接水合法、乙酸仲丁酯加氢和乙酸仲丁酯酯交换法等进行生产,其中正丁烯水合法和乙酸仲丁酯加氢都存在工艺流程复杂,设备腐蚀严重,产生“三废”较多,能耗严重等问题。乙酸仲丁酯酯交换法具有原子经济性,且工艺简单,但其也存在催化剂难分离回收和难再生等问题。离子液体作为一种新型功能材料,在催化领域表现出良好性能,且其有不易挥发、稳定性强和可设计等特点。针
学位
多相机测量系统会因较小的重叠视野与环境干扰而导致外参标定失败,因此提出了一种基于多编码块组合型标定板的多相机外参标定方法。首先,设计了一种平面标定板,它由多个具有独立编码信息的编码块组合而成;其次,研究了编码块特征点的提取与管理方法;最后,通过重建特征点并优化重投影误差,实现了各个相机外参的全局标定。实验结果表明,该方法能够适应各相机无法同时观测完整标定板的情况,并且有标定后的测量误差为0.014
期刊
Fe-36Ni二元因瓦合金具有低的膨胀系数,在天平摇臂、激光准直仪腔体等精密仪器上具有广泛的应用。近年来,随着远距离大容量低垂弧高压输电线缆、航空航天模具以及能源运输领域的液化天然气运输船等领域的发展,对于因瓦合金的强度提出了更高的要求,故研发高强度低膨胀的因瓦合金具有重要意义。然而,由于因瓦合金为单相奥氏体组织,相变强化难以生效。本文利用冷拔变形以及中温轧制变形与固溶、时效热处理相结合的手段,显
学位
PPP模式是近年来逐步发展与优化的项目融资模式,它随着基础设施建设的发展而逐步发展。PPP项目具有项目参与者多,项目合作周期较长,风险较高的特征。对PPP项目融资特点与风险特征进行分析,发现其主要风险因素包括合规性风险、经营风险、担保风险、总投资增加的风险等。对PPP项目可能发生的融资风险,需要从社会资本方、政府方和金融机构三方积极采取有效措施进行应对。
期刊
纳米多孔金属材料是一种兼具金属材料与多孔材料性能的新型金属功能材料,具有高比表面积,优良的电子传导能力、较高的能量密度以及较好的电化学活性等特性,使其在能源、催化、传感器等领域具有非常大的市场应用潜力。本论文在Ti-Cu非晶的基础上加入Zr,不仅增强了非晶形成能力,而且平衡了Ti-Cu非晶制备放入孔径较小和Zr-Cu制备的多孔不均匀的缺点。Ti-Zr-Cu非晶合金为基体通过脱合金法制备纳米多孔材料
学位
随着材料学、临床医学和生物学等交叉学科的发展,制备具有优良的生物相容性、生物安全性、诱导成骨活性和抗腐蚀性能的钛合金种植体材料成为材料工作者和医学工作者共同关注的研究热点,而羟基磷灰石作为骨和牙的主要无机成分成为表面活性材料的首选。本研究采用溶胶-凝胶法制备并筛选出兼具良好血液相容性和优异抗菌性能的掺银纳米羟基磷灰石(Ag-n HA),并以其作为涂层材料,通过阳极氧化和浸润拉膜法在低模量Ti-25
学位
钴基催化剂具有不易中毒,不易积炭,选择性稳定等特点,被广泛应用于费托合成反应中。然而,目前所制备的钴基催化剂仍然存在着诸如活性组分分散性差、载体单一和使用寿命短等问题,很大程度上限制了其应用。电气石具有自发极化和远红外辐射两大特殊的物理性质,以及良好的热稳定性和吸附性,逐渐成为非金属矿物研究领域的热点之一。采用电气石作为催化剂载体,既能改善催化剂活性组分的分散性问题,又能提高催化剂的比表面积。本课
学位
液体润滑涂层在日常生活的许多方面都有着非常重要的作用,这类涂层因其具有优异的疏水、疏油、抗菌、防污等性能,在高分子材料的研究领域一直是一大热点。当前,液体润滑涂层可分为超疏水涂层、注液光滑多孔涂层、表面接枝聚合物涂层以及以有机硅材料为主的高交联涂层等。基于溶胶-凝胶法制备的高交联涂层因其制备工艺简单、条件温和、成本经济等优势而具有重要的研究价值和应用潜能。在大量的溶胶-凝胶法制备润滑涂层的研究中,
学位
在当今时代的供应链管理追求的是高效、及时、灵活、环保清洁的生产合格产品并且提供给客户满意的服务。公司通过实施供应链信息系统改善工程来提升供应链管理的一种行之有效的方式,通过提高公司内部流程工作效率,消除各种浪费,降低生产成本,减少仓储成本,减少商品交付时间,以实现对顾客要求的快速反应,进而提升顾客满意度;同时,公司员工的领导能力、公司的企业文化、领导力和生产研发技术都在供应链信息系统的全面改善中得
学位