关系抽取中无监督领域自适应技术的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:fkj1022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是知识图谱构建与信息提取的关键环节,主要提取两个或者多个实体之间的某种联系,目的是得到三元组(实体1,关系,实体2)。领域自适应问题指在一个领域学习到的模型如何有效地应用到另一个领域。在现实生活中,我们不太可能获得所有领域的数据,更不可能为所有领域都标注数据。所以在关系抽取中无监督领域自适应问题尤为重要。本文的研究问题就是利用源领域带有标签的数据和目标领域没有标签的数据,去提升目标领域关系抽取的效果。主要分为以下方面的内容。1.为了避免领域私有特征的引入,更有效地抽取出领域共有特征,提出了一种多视角自适应网络。该网络在目标领域采用了多视角训练。源领域打好标签的数据和目标领域未打标签的数据被一起输入到共享特征提取器中,以学习共有特征表示。然后使用这些特征生成关系预测。除了这些全视图数据之外,还构造了一些受限制视图数据,会失去一些目标域上的上下文信息,例如实体字。这些受限制的视图数据也被输入到共享特征提取器中以产生预测。全视图数据的预测分布将充当“教师”的角色,以使不同的受限制视图数据学习相同的预测。通过拟合预测的分布,模型可以学习到不依赖于领域独有特征(例如实体词)的一些上下文信息。在ACE2005数据集上的实验表明,模型比现有工作在F1值上最高提升了2.1%,达到了目前最好的效果。2.针对现有模型无法很好捕捉不同领域的非序列特征问题,提出了一种端到端的图适应网络来对齐领域之间的非局部特征。在构造的三部图中,边仅存在于领域私有词和共有词之间,源域词和目标域词之间通过共有词作为媒介间接连接,并且词共现信息作为边的固定权重。然而,单词共现信息对语料库的依赖性强,不可避免地会引入一些噪声,因此又引入了图的动态权重。领域私有单词的表示动态权重由注意力机制实现。固定权重和动态权重相加做为边的最终权重。领域私有单词通过图卷积神经网络被对齐,然后再把这些单词的向量表示输入到共享特征提取器进行特征提取,就能有效避免领域独有信息的引入。在ACE2005数据集上的实验表明,图适应网络能有效对齐非序列的领域独有特征,并更关注一些具有强领域相关性单词的对齐。实验结果F1值最高提升了2.7%,也说明了模型的有效性。3.结合以上的创新点,设计开发了一个无监督的跨领域关系抽取模块,用于直观展示模型的效果,并使之便于整合到知识抽取系统或其他下游的任务中。
其他文献
由于混沌信号具有良好的类随机、宽功率谱等特性,在信息加密、混沌掩盖等领域,常用混沌信号来隐藏需要传输的信息。然而,混沌信号的应用仍有一定的局限性。一方面,由于混沌信号包含着它所属混沌系统的大量特征信息,可通过相空间重构对混沌信号进行攻击;另一方面,由于混沌载波在其主频范围以内具有丰富的功率谱,而在主频以外并无频率成分,这严重限制了用混沌信号来掩盖更高频率的信息信号。为解决上述问题,提出一种变换混沌
基于双程波动方程的逆时偏移由于其对复杂构造成像精度较高目前得到了广泛关注。逆时偏移对速度非常敏感,相比其他偏移方法,同样的速度误差会给逆时偏移的成像结果带来更大的偏差。这些由速度误差带来的成像偏差会体现在共成像点道集上,一般表现为同相轴弯曲。角度域共成像点道集是目前公认假象最少的共成像点道集,将其处理后再叠加,可以提高逆时偏移成像质量。因此本文围绕着逆时偏移中角道集的优化处理进行了研究。本文首先对
现在我国高度重视环境问题,“坚持人与自然和谐共生”、“绿水青山就是金山银山”等新理念的提出便是对其最好的印证。绿色购买行为作为环境友好行为的一部分,推进消费者购买行为向绿色转型有利于美丽中国的建设。由于河北省是我国环境治理的重难点区域,因此选取河北省消费者为研究对象,探究提高河北省消费者绿色购买行为的方法,从而达到改善环境的目的,为建设美丽中国做出贡献。本文以计划行为理论和霍华德—谢思购买行为模式
在英语课堂教学中,英语阅读是重要组成部分,同时也是一项难点内容,如何突出其重要性、克服其障碍,是教师必然要考虑的课题,以故事为切入点比较符合小学生的身心发展特点,有益
喷涂机器人因其操作简便、喷涂效率高、反馈精准等特点,广泛的应用于船舶、汽车、电子等各行各业。如今喷涂机器人的本体研究已经较为成熟,而频繁旋转、弯曲和关节活动的喷涂末端执行器却存在着许多问题。以往的单喷头、结构紧凑度低的喷涂执行器已经不能满足大面积喷涂的需求。在此背景下,依照国内外喷涂机器人研究的基础,研发推广一种实现大面积喷涂、高效率、灵活度高、结构紧凑度高的喷涂执行器是我国喷涂行业发展的迫切需求
随着现代工业以及社会经济的飞速发展,污水中氮素含量过高而引发的环境污染问题日益突出。生物脱氮技术是最为经济有效的处理污水的方法,然而传统的生物脱氮技术存在耗能高、处理构筑物复杂、占地面积大等问题。好氧反硝化作为一种新型生物脱氮技术,因其可在同一构筑物中实现同步硝化反硝化而具有效率高、能耗低以及构筑物简单等优势被广泛应用,然而好氧反硝化技术在实际的应用中会产生因生物量流失而很难高效的维持脱氮效果的问
叶面积指数(Leaf Area Index,LAI)是一项重要的、可用于衡量农作物生长状况的指标。在现代农业、林业管理等领域的应用较为广泛,同时在陆地生态系统与作物生长系统模型构建、
二十世纪以来,塑料制品被广泛应用于生活的各个领域,给我们的生活和工作带来了极大的方便。但由于塑料废弃物极难降解,大量的塑料垃圾进入自然环境。环境中的塑料废弃物在长期的物理、化学和生物等过程中,缓慢破碎及分解成直径小于5 mm的塑料微粒,这些塑料微粒广泛存在于地表水、沉积物、土壤及生物体中,被称为微塑料。由于其难降解,直径小,比表面积大的特性,易吸附环境中的污染物,比如持续性有机污染物和重金属等,吸
孤残儿童福利事业是我国社会保障工作的重要组成部分,随着我国社会经济的蓬勃发展,孤残儿童福利事业也得到了长足发展,取得了显著成绩。每年,S市社会福利院承接大量孤残儿童入院,儿童入院之后,由社工部和其他科室共同评估,通过安置联席会议讨论不同的安置方式给予实施。研究以S市社会福利院新入院孤残儿童儿童W为对象,以马斯洛需求层次理论和生态系统理论为指导,通过观察和访谈法的应用收集相关资料,对S市福利院新入院
伴随着全球数字化浪潮的蓬勃发展,已然推动了商业社会进入数字经济时代。2018年中国数字经济规模为31.3万亿,占全年GDP的比重高达34.8%。在数字经济时代,以物联网、大数据、人工智能和区块链为代表的的新一代信息技术与管理业务加速融合,不断的重塑商业理念与商业模式。与此同时,全球汽车市场竞争的加剧,中国汽车市场在持续三十多年的正向增长后,在2018年出现首次负增长,这也预示着中国汽车市场正在经历